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内 容 简 介 


自然 语言 处 理 (NLP) 是 计算 机 科学 、 人 工 智能 、 语 言 学 关注 计算 机 和 人 类 (自然 语言 之 间 的 相互 作 
用 的 领域 。 自 然 语言 处 理 是 机 器 学 习 的 应 用 之 一 ， 用 于 分 析 、 理 解 和 生成 自然 语言 ， 它 与 人 机 交互 有 关 ， 最 
终 实 现 人 与 计算 机 之 间 更 好 的 交流 。 

本 书 分 为 12 章 , 内 容 包括 自然 语言 处 理 基础 、 深 度 学 习 基础 、TensorFlow、 词 嵌入 (Word Embedding) 、 
卷 积 神经 网 络 (CNN) 与 句子 分 类 、 循 环 神经 网 络 (RNN) 、 长 短期 记忆 (LSTM) 、 利 用 LSTM 实现 图 像 
字幕 自动 生成 、 情 感 分 析 、 机 器 翻译 及 智能 问答 系统 。 

本 书 适 合 TensorFlow 自然 语言 处 理 技术 的 初学 者 、NLP 应 用 开发 人 员 、NLP 研究 人 员 ， 也 适合 高 等 院 校 
和 培训 学 校 相关 专业 的 师 生 教学 参考 。 
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2018 年 ， 其 实 是 自然 语言 处 理 领 域 收获 颇 丰 的 一 年 ， 尤 其 是 以 Google 公司 在 2018 年 11 H fr 
发 布 的 BERT 模型 最 为 世人 所 瞩目 ,可 以 说 是 最 近 AI 研究 领域 最 为 火爆 的 历史 性 突破 .最 近 几 年 ， 
无 论 从 媒体 报道 还 是 切身 感受 , 我 们 都 看 到 人 工 智能 目前 的 发 展 势头 非常 迅猛 。 如 果 我 们 简单 回顾 
一 下 人 工 智能 发 展 历程 ， 不 难 发 现 其 轨迹 有 三 个 发 展 阶段 : 第 一 个 阶段 是 计算 智能 阶段 ， 其 典型 表 
现在 于 计算 机 和 人 类 相 比 是 能 存 会 算 ， 其 超大 存储 量 、 超 高 计算 速度 方面 均 可 完胜 我 们 人 类 ; 第 二 
个 阶段 是 感知 智能 阶段 , 具体 表现 在 以 语音 识别 和 图 像 识 别 技术 为 代表 的 迅猛 发 展 , 如 综艺 电视 节 
目 中 的 “机 智 过 人 ”“ 最 强大 脑 ”就 是 其 很 好 的 呈现 形式 ， 第 三 个 阶段 是 认 知 智能 阶段 ， 这 个 阶段 
需要 机 器 能 够 思考 并 具有 情感 。 正 因为 人 工 智 能 与 我 们 日 常生 活 的 联系 越 来 越 紧密 , 且 自 然 语言 处 
理 技术 是 推动 机 器 实现 认 知 的 关键 性 研究 领域 ,所 以 我 们 有 必要 对 自然 语言 处 理应 用 进行 深入 探索 。 
本 书 将 利用 目前 流行 的 Google 技术 框架 〈TensorFlow) 来 实现 自然 语言 处 理 方面 的 应 用 。 

由 于 我 们 生活 的 方方面面 被 赋予 了 越 来 越 多 的 数字 化 内 容 , 因此 相应 的 数据 量 也 在 呈 指 数 级 增 
长 ， 并 且 大 多 数 数据 是 与 语言 相关 的 数据 ， 如 电子 邮件 、 社 交 媒 体 帖子 、 电 话 和 网 络 文章 ， 自 然 语 
言 处 理 (NaturalLanguageProcessing, NLP) 能 够 有 效 地 利用 这 些 数据 帮助 人 们 完成 日 常 业 务工 作 。 
NLP 已 经 彻底 改变 了 我 们 使 用 数据 改善 业务 和 生活 的 方式 ， 并 将 在 我 们 未 来 的 日 常生 活 中 发 挥 更 
大 的 作用 。 

NLP 最 普遍 的 使 用 案例 之 一 是 虚拟 助手 (Virtual Assistants，VA)， 如 百度 小 度 助 手 、Apple 的 
Siri、 谷 歌 助手 (Google Assistant) 和 亚马逊 Alexa。 当 我 向 VA 询问 “附近 最 便宜 的 火锅 ”时 ( 笔 
者 利用 手机 上 百度 地 图 小 度 时 ， 它 会 把 附近 最 便宜 的 火锅 店 排 在 第 一 位 )， 就 会 触发 一 系列 复杂 的 
NLP 任务 。 首 先 VA 需要 了 解 (解析 ) 我 的 请 求 (了解 它 需 要 检索 火锅 的 价格 ， 而 不 是 停车 位 计时 
的 价格 )，VA 做 出 的 决定 是 “什么 是 便宜 的 ?”; 然后 VA 需要 对 附近 火锅 的 价格 进行 排名 (也 有 
可 能 基于 我 过 去 吃 过 的 火锅 店 )， 最 后 VA 抓 取 相关 数据 获取 附近 火锅 的 价格 ， 并 通过 分 析 每 家 火 
锅 店 的 价格 和 评论 对 它们 进行 排名 。 其 实 , 我 们 在 几 秒 钟 内 看 到 的 结果 是 执行 一 系列 非常 复杂 NLP 
任务 的 结果 。 

正 是 NLP 在 我 们 日 常生 活 中 呈现 出 越 来 越 多 的 便利 性 , 笔者 才 更 想 对 NLP 背后 的 模型 原理 和 
具体 应 用 进行 深入 的 探讨 ， 以 便 我 们 对 NLP 有 更 多 的 认 知 。 另 外 ， 笔 者 查看 了 近 些 年 来 的 相关 文 
献 ， 发 现 单独 讲解 NLP 方面 的 理论 文献 国内 外 都 有 ， 单 独 撰写 NLP 任务 实现 的 技术 工具 〈 如 
TensorFlow) 的 图 书 也 很 多 ， 而 将 二 者 结合 起 来 的 图 书 ， 目 前 在 国内 还 没有 发 现 ( 也 许 有 ， 只 是 笔 
者 没有 发 现 而 已 )。 于 是 ，2018 年 4 月 ， 笔 者 就 想 对 关于 利用 TensorFlow 技术 框架 来 实现 NLP ££ 
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务 应 用 方面 进行 成 体系 地 探索 ， 以 便 对 今后 的 工作 有 所 积累 。 本 书 在 创作 过 程 中 参考 了 《Natural 
Language Processing with TensorFlow) (Thushan Ganegedara 著 ) 中 的 一 些 内 容 ， 在 此 向 Thushan 
Ganegedara 表达 个 人 的 敬意 ! 

通过 阅读 本 书 ， 你 将 学 会 如 何 利用 深度 学 习 来 实现 许多 有 意义 的 NLP 任务 。 对 于 本 书 中 涉及 
的 NLP 任务 , 我 们 都 有 有 具体 的 代码 实现 ( 含 实现 过 程 ), 使 用 的 技术 框架 为 TensorFlow (1.8 版 本 )， 
编程 语言 为 Python (3.6 版 本 )。 


本 书 主要 内 容 


第 1 章 自然 语言 处 理 基础 。 首 先 介绍 自然 语言 处 理 的 含义 及 NLP 中 的 一 些 常见 子 任务 ， 然 
后 讲述 NLP 的 发 展 历程 : 偏 理论 的 理性 主义 、 偏 实践 应 用 的 经 验 主义 和 深度 学 习 阶段 ; 接着 对 NLP 
任务 中 深度 学 习 的 局 限 性 进行 了 大 致 分 析 ; 最 后 ， 我 们 对 于 NLP 的 应 用 场景 和 发 展 前 景 做 了 简要 

第 2 章 深度 学 习 基础 。 首先 介绍 深度 学 习 的 概念 和 演变 过 程 , 同时 介绍 了 深度 学 习 的 基础 模 
型 一 一 神经 元 模型 ， 并 对 单 层 神经 网 络 和 多 层 神经 网 络 模型 (深度 学 习 ) 的 结构 和 原理 进行 了 深度 
解读 ;然后 介绍 Encoder-Decoder 网 络 和 深度 学 习 中 最 常见 的 优化 算法 一 一 随机 梯度 下 降 ， 最 后 介 
绍 反 向 传播 算法 BP 算法 )。 

第 3 章 TensorFlow。 首 先 介绍 TensorFlow 的 产生 、 主 要 特征 和 相关 安装 等 基础 准备 内 容 ， 
同时 介绍 了 在 执行 TensorFlow 程序 时 需要 构建 计算 图 及 其 构成 元 素 ， 并 详细 解读 了 TensorFlow 的 
架构 和 工作 原理 ， 还 给 出 了 一 个 示例 来 加 深 理解 ， 然 后 从 TensorFlow 客户 端的 角度 通过 代码 逐 层 
剖析 TensorFlow 的 内 部 运行 情况 ， 以 便 让 我 们 对 TensorFlow 的 内 部 运行 机 制 、 各 个 基础 组 件 之 间 
的 关联 等 有 深入 的 了 解 ， 最 后 介绍 变量 作用 域 机 制 并 实现 一 个 完整 的 神经 网 络 示例 。 

第 4 章 词 嵌 入 。 首 先 介绍 分 布 式 表示 , 对 其 含义 、 类 型 及 简要 特征 有 一 个 直观 的 认识 ; 其 次 ， 
我 们 重点 对 CBOW 模型 、Skip-gram 模型 及 GloVe 模型 的 工作 原理 和 内 部 架构 进行 深度 解析 ; 最 
后 利用 前 面 的 模型 ， 通 过 TensorFlow 实现 一 个 文档 分 类 任务 。 

第 5 章 ” 卷 积 神经 网 络 (CNN) 与 句子 分 类 。 首 先 介 绍 CNN 的 历史 演变 过 程 ， 并 对 其 5 个 层 
级 结构 (输入 层 、 卷 积 运 算 层 、 激 励 导 、 池 化 层 、 全 连接 层 ) 和 4 个 基本 运算 单元 ( 卷 积 运算 、 池 
化 运算 、 全 连接 运算 和 识别 运算 ) 进行 了 介绍 ; 然后 介绍 几 种 常见 的 经 典 卷 积 神经 网 络 : AlexNet、 
VGGNet, Google Inception Net 和 ResNet， 并 逐一 从 模型 思想 、 结 构 、 特 性 亮点 等 方面 进行 详细 解 
dx. 最 后 为 了 将 上 述 解析 的 模型 思想 真正 落实 到 代码 层面 上 ， 我 们 给 出 两 个 应 用 案例 : 利用 CNN 
对 MNIST 数据 集 进行 图 片 分 类 和 利用 CNN 对 句子 进行 分 类 。 

第 6 章 循环 神经 网 络 (RNN)。 首 先 通过 计算 图 及 其 展开 解读 了 循环 的 任何 函数 本 质 上 可 以 
认为 是 一 种 循环 神经 网 络 的 说 法 ; 然后 介绍 时 间 的 反 向 传播 算法 (BPTT)， 我 们 将 学 习 反 向 传播 的 
工作 原理 、 为 什么 不 能 对 RNN 使 用 标准 反 向 传播 、 如 何 使 用 BPTT 对 数据 进行 RNN 训练 、 截 断 
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BPTT 和 BPPTT 的 局 限 性 等 ， 并 解读 其 局 限 性 中 的 常见 问题 及 对 应 的 解决 方法 ， 最 后 我 们 将 看 到 
一 个 RNN 的 应 用 一 一 文本 生成 ,并 研究 了 一 种 能 够 捕获 更 长 记忆 的 RNN 变 体 (被 称 为 RNN-CF )， 
还 给 出 了 其 在 实例 中 的 应 用 。 

第 7 章 长 短期 记忆 网 络 (LSTM)。 首 先 介 绍 LSTM 及 其 高 级 架构 ， 并 深入 研究 LSTM 中 发 
生 的 详细 计算 , 结合 一 个 例子 讨论 了 该 计算 的 过 程 ; 然后 介绍 了 几 个 可 以 提高 LSTM 性 能 的 扩展 ， 
即 贪心 采样 (一 种 非常 简单 的 技术 )、 集 束 搜索 〈 一 种 更 复杂 的 搜索 技术 ) 及 BILSTM 模型 等 ， 最 
后 介绍 了 标准 LSTM 的 两 种 变 体 : 窥视 孔 连接 和 GRU. 

第 8 章 利用 LSTM 自动 生成 文本 。 首 先 广泛 地 评估 了 LSTM 在 文本 生成 任务 中 的 表现 ， 然 
后 定性 和 定量 地 测量 LSTMS 生成 的 文本 有 多 好 ， 并 对 LSTM、 带 窗 视 孔 连 接 的 LSTM 和 GRU H 
行 比 较 ， 最 后 如 何 将 词 嵌入 引入 模型 中 ， 以 改进 LSTM 生成 的 文本 。 

第 9 章 利用 LSTM 实现 图 像 字幕 自动 生成 。 首 先 回顾 了 图 像 字幕 的 主要 发 展 及 其 对 研究 和 
行业 部 署 的 影响 ; 其 次 详细 介绍 了 基于 深度 学 习 的 图 像 字幕 自动 生成 的 两 大 框架 ; 最 后 对 图 像 字幕 
的 自动 生成 任务 进行 了 详解 。 

第 10 章 ”情感 分 析 。 首 先 介绍 情感 分 析 的 应 用 、 情 感 问题 的 界定 及 情感 文档 的 分 类 ， 同 时 对 
句子 观点 的 主观 性 、 基 于 Aspect 的 情感 分 析 、 情 感 词典 的 生成 、 比 较 观 点 分 析 及 观点 的 检索 做 了 
介绍 ;然后 重点 逆 述 了 垃圾 评论 的 各 种 情况 ， 最 后 利用 TensorFlow 对 于 酒店 评论 样本 数据 进行 了 
情感 分 析 建 模 比较 ， 并 得 出 相关 结论 。 

第 11 章 ， 机 器 翻译 。 首 先 对 基于 规则 的 机 器 翻译 、 统 计 机 器 翻译 等 传统 的 机 器 翻译 情况 进行 
了 详细 解释 , 并 对 基于 神经 网 络 的 神经 网 络 机 器 翻译 模型 的 架构 和 工作 机 制 进行 了 深度 剖析 , 同时 
对 2018 年 11 月 份 发 布 的 具有 重大 突破 性 的 BERT 模型 进行 了 分 析 ; 然后 介绍 如 何 实现 一 个 NMT 
系统 ， 最 后 讲解 如 何 改 进 标准 NMT 系统 。 

第 12 章 智能 问答 系统 。 本 章 简要 介绍 了 基于 深度 学 习 的 问答 方法 ， 特 别 是 对 知识 库 和 机 器 
理解 的 问答 。 深度 学 习 的 优点 是 可 以 将 所 有 文本 跨度 (包括 文档 、 问 题 和 潜在 答案 ) PIRA IS] FR 
入 ， 然 而 基于 深度 学 习 的 QA 模型 存在 许多 挑战 。 例 如 ， 现 有 的 神经 网 络 (RNN 和 CNN) 仍然 不 
能 精确 地 捕获 给 定 问题 的 语义 含义 ,特别 是 对 于 文档 , 主题 或 逻辑 结构 不 能 通过 神经 网 络 容易 地 建 
模 , 并 且 在 知识 库 中 嵌入 项 目 仍然 没有 有 效 的 方法 ,以 及 QA 中 的 推理 过 程 很 难 通过 向 量 之 问 的 简 
单数 值 运算 来 建 模 。 这 些 问 题 是 质量 保证 任务 面临 的 主要 挑战 ， 未 来 应 引起 更 多 的 关注 。 


代码 下 载 与 技术 支持 


本 书 示例 代码 下 载 地 址 请 扫描 下 面 的 二 维 码 获得 .如 果 发 现 书 中 存在 问题 或 对 本 书 有 什么 建议 ， 
请 联系 电子 邮箱 280751474@qq.com 。 
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自然 语言 处 理 (Natural Language Processing，NLP) 是 一 个 跨 学 科 领 域 ， 它 结合 了 计算 科学 、 
语言 学 、 认 知 科学 和 人 工 智能 , 主要 研究 能 够 让 计算 机 实现 与 人 类 语言 有 关 的 各 类 任务 的 各 种 理论 
和 方法 ， 特 别 是 如 何 对 计算 机 进行 编程 以 处 理 和 分 析 大 量 自然 语言 数据 〈 非 结构 化 的 数据 ) 。 从 科 
学 的 角度 来 看 ，NLP 旨 在 对 人 类 语言 理解 和 产生 的 认 知 机 制 进行 建 模 。 从 工程 角度 来 看 ，NLP X 
与 人 类 语言 之 间 的 交互 。 在 自然 语言 处 理 中 , 经 常 过 
到 的 挑战 包括 语音 识别 、 口 语 理解 、 对 话 系 统 、 词 汇 分 析 、 句 法 解析 、 机 器 翻译 、 知 识 图 谱 、 信 息 
检索 、 问 题 问 答 、 情 感 b. 社交 计算 、 自 然 语言 生成 和 自然 语言 摘要 等 。 当 然 ， 自 然 语言 处 理工 
作 也 是 计算 机 科学 中 极其 困难 的 工作 任务 。 语 言 本 身 存在 着 各 种 各 样 的 问题 ， 亦 因 语 言 而 异 。 

幸运 的 是 , 最 近 几 年 深度 学 习 领域 获得 快速 发 展 ,使 得 深度 学 习 算 法 在 诸如 图 像 分 类 、 语 音 识 
别 、 文 本 生成 、 机 器 翻译 等 诸多 带 有 很 强 挑战 性 的 工作 任务 中 表现 优异 ， 加 速 了 深度 学 习 与 NLP 
各 工作 任务 的 深度 融合 ,从 而 使 得 自然 语言 处 理 领 域 焕发 出 新 的 活力 。 而 在 深度 学 习 被 广泛 应 用 的 
过 程 中 ， 出 现 了 多 种 技术 框架 ， 其 中 TensorFlow 是 目前 最 直观 、 最 有 效 的 深度 学 习 框 架 之 一 。 本 
书 重点 探讨 如 何 利用 TensorFlow 深度 学 习 框架 去 实现 NLP 的 各 种 任务 ,例如 句子 分 类 ,文档 分 类 、 
文本 生成 、 图 像 字幕 自动 生成 、 机 器 翻译 、 智 能 问答 等 。 

在 本 章 中 ， 我 们 将 要 对 于 自然 语言 处 理 基础 有 一 个 初步 了 解 ， 并 对 NLP 的 主要 工作 任务 做 一 
个 划分 ; 然后 我 们 将 对 NLP 领域 的 三 个 发 展 浪潮 做 详细 解读 ， 并 对 当前 NLP 领域 中 深度 学 习 的 局 
限 性 进行 剖析 ; 最 后 ， 我 们 还 会 对 于 NLP 的 应 用 场景 和 应 用 前 景 做 个 简要 阐述 。 
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1.1 认识 自然 语言 处 理 


根据 《2017 微 信 数 据 报告 》 显 示 ， 每 天 会 有 380 亿 条 信息 从 微 信 上 发 出 ， 如 果 按 照 每 条 信息 
都 是 文字 “你 吃饭 了 么 ”计算 ， 通 过 微 信 发 送 的 信息 每 天 的 数据 量 在 350GB 以 上 (一 个 汉字 占 2 
字 节 ，1024 字 节 =1KB) 。 而 实际 的 数据 量 会 更 多 ， 因 为 这 些 信息 会 有 不 少 语音 、 动 画 表情 、 图 片 、 
小 视频 等 。 其 实 ， 在 实际 工作 中 ,我 们 每 天 都 在 处 理 的 电子 邮件 、 各 类 报告 文档 等 同样 也 在 以 惊人 
的 速度 充斥 着 整个 网 络 环境 。2018 年 6 月 ， 据 科技 公司 Domo 预测 ， 到 2020 年 ， 世 界 上 每 人 每 
天 将 产生 超过 140GB 的 数据 ， 并 且 随 着 物 联网 的 迅猛 发 展 ， 这 个 数字 将 会 继续 扩大 。 

正 是 由 于 这 些 统计 数据 的 存在 ， 才 使 得 我 们 为 界定 NLP 提供 了 良好 的 基础 。 简 而 言 之 ，NLP 
的 目标 就 是 让 机 器 拥有 真正 理解 人 类 语言 并 以 与 人 类 相同 的 方式 处 理 它 的 能 力 。 如 今 ，NLP 的 应 
用 已 经 广泛 存在 ， 就 像 我 们 日 常生 活 中 常用 到 的 虚拟 助手 VA ， 常 见 的 有 百度 语音 助手 、 讯 飞 
语音 助手 、Google 智能 助理 、 微 软 的 个 人 智能 助理 小 娜 CCortana) 、 苹 果 系统 的 Siri 等 ， 这 些 虚 
拟 助手 主要 是 NLP 系统 在 运行 。 比 如 ， 你 告诉 语音 助手 “请 告诉 我 附近 好 吃 的 麻辣 溪 在 哪儿 ?” 
首先 ，VA 需要 将 你 的 声音 转换 为 文本 语音 到 文本 ) 。 接 下 来 ，VA 必须 理解 你 请 求 的 语义 〈 例 
如 , 你 正在 寻找 带 有 麻辣 溪 美 食 且 好 吃 的 餐厅 ) 并 制定 结构 化 请 求 ( 例 如 , 美食 = 麻辣 溪 , 评级 = 3-5, 
距离 <3 公里 ) 。 然 后 ，VA 必须 按 位 置 和 菜肴 两 个 条 件 搜索 并 筛选 出 餐厅 ， 再 按 收 到 的 评级 对 餐 
厅 进 行 排序 。 为 了 计算 餐厅 的 整体 评级 ， 良 好 的 NLP 系统 可 以 查看 每 个 用 户 提 供 的 评级 和 文本 描 
述 。 最 后 ， 用 户 到 达 餐 厅 ，VA 还 可 以 将 各 种 菜品 组 合 的 受 欢迎 程度 进行 综合 推荐 ， 以 此 来 帮助 你 
做 出 更 好 的 选择 。 这 个 例子 表明 NLP 已 成 为 人 类 生活 中 不 可 或 缺 的 一 部 分 。 


12 自然 语言 处 理 方面 的 任务 


NLP 其 实 有 许多 实际 的 应 用 ， 而 一 个 好 的 NLP 系统 会 执行 多 个 任务 系统 。 比 如 ， 上 面 提 到 的 
你 要 在 当前 位 置 选择 麻辣 溪 小 吃 店 的 例子 ,其 实 就 是 在 执行 多 个 NLP 任务 系统 .关于 NLP 的 任务 ， 
主要 有 以 下 几 类 : 


€ FW: 标记 化 是 将 文本 语料库 分 离 为 原子 单元 ( 例如 ， 单 词 ) 的 任务 。 虽 然 看 似 微 不 
足 道 ， 但 是 标记 化 却 是 一 项 非常 重要 的 工作 任务 。 例 如 ， 在 日 语 中 ， 单 词 不 以 空格 或 标 
点 符号 分 隔 。 

© 词义 消 歧 (Word-sense Disambiguation, WSD ) : 词义 消 歧 是 识别 单词 正确 含义 的 任务 。 
例如 ， 有 两 个 句子 ，“ 你 提供 的 图 真 好 看 ”和 “你 图 哈 ? ”， 其 中 “图 ”就 有 两 种 不 同 
的 含义 。 词 义 消 歧 对 于 诸如 问答 之 类 的 任务 至 关 重 要 。 

€ 命名 实体 识别 (Named Entity Recognition, NER) : NER 尝试 从 给 定 的 文本 主体 或 文本 
语料库 中 提取 实体 (例如 ， 人 、 位 置 和 组 织 ) 。 例如， 有 一 个 句子 ，“ 林 阿姨 昨天 在 小 
区 门口 给 了 小 明 两 瓶 牛奶 ” , HRR A ATR IR yg DENTE gg T 
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DA Ah yg ti. NER 是 信息 检索 和 知识 表示 等 领域 的 一 个 重要 课题 。 

词性 (Part-of-Speech，PoS ) 标注 : 是 词汇 基本 的 语法 属性 ， 通 常 也 称 为 词类 ， 既 可 以 
是 名 词 、 动 词 、 形 容 词 、 副 词 、 介 词 等 基本 标签 ， 也 可 以 是 诸如 专 有 名 词 、 普 通 名 词 、 
短语 动词 等 。 词 性 标注 就 是 在 给 定 句子 中 判定 每 个 词 的 语法 范畴 ， 确 定 其 词性 并 加 以 标 
注 的 过 程 ， 是 中 文 信息 处 理 面临 的 重要 基础 性 问题 ， 主 要 可 以 分 为 基于 规则 和 基于 统计 
的 方法 。 

句子 /概要 分 类 : 句子 或 概要 ( 例如 ， 电 影评 论 ) 分 类 有 许多 用 例 ， 例 如 垃圾 邮件 检测 、 
新 闻 文 章 分 类 (诸如 政治 、 科 技 和 体育 等 ) 和 产品 评论 评级 ( 正面 或 负面 ) 。 这 是 通过 
训练 带 标签 的 数据 ( 由 人 类 注释 的 评论 ， 带 有 积极 或 消极 的 标签 ) 来 训练 分 类 模型 实现 
的 。 
文本 生成 : 在 文本 生成 中 ， 学 习 模型 ( 例如， 和 神经 网 络 ) 使 用 文本 语料库 ( 大 量 文本 文 
档 集合 ) 进行 训练 ， 预 测 随后 的 新 文本 。 例 如 ， 文 本 生成 可 以 通过 使 用 现 有 的 小 说 故事 
文本 进行 训练 来 输出 一 个 全 新 的 小 说 故事 文本 。 当 然 ， 具 体 的 实现 过 程 会 涉及 具体 模型 
的 实施 ， 具 有 一 定 的 复杂 性 。 本 书 第 8 章 将 专门 针对 文本 生成 做 详细 解读 。 

问答 (QA) 系统 : QA 技术 具有 很 高 的 商业 价值 ， 因 为 这 些 技术 是 聊天 机 器 人 和 VA ( 例 
如 谷歌 Assistant 和 苹果 Siri ) 实现 的 基础 所 在 。 聊 天机 器 人 已 经 被 许多 公司 用 于 客户 支持 
工作 。 聊 天 机 器 人 可 以 用 来 回答 和 解决 客户 直接 关心 的 问题 ， 而 不 需要 人 工 干预 。QA 涉 
及 NLP 的 许多 方面 ， 比 如 信息 检索 和 知识 图 谱 中 的 知识 表示 。 因 此 开发 QA 系统 变 得 更 
加 有 具有 挑战 性 。 

机 器 翻译 : 是 将 一 个 句子 /短语 从 源 语言 (如 汉语 ) 转换 为 目标 语言 (如 英语 ) 的 任务 。 
这 是 一 个 非常 具有 挑战 性 的 任务 ， 因 为 不 同 的 语言 具有 高 度 不 同 的 形态 结构 ， 这 意味 着 
它 不 是 一 对 一 的 转换 。 此 外 ， 语 言 之 间 的 字 对 字 关 系 可 以 是 一 对 多 、 一 对 一 、 多 对 一 或 
多 对 多 。 这 在 MT 文献 中 被 称 为 单词 对 齐 问 题 。 


为 了 开发 一 个 可 以 帮助 人 们 完成 日 常任 务 的 系统 (例如 ，VA 或 聊天 机 器 人 ) ， 这 些 任 务 中 的 
许多 工作 需要 放 在 一 起 执行 。 正 如 我 们 在 前 面 的 例子 中 看 到 的 那样 ,，“ 请 告诉 我 附近 好 吃 的 麻辣 溪 


在 哪儿 ? ”需要 完成 几 个 不 同 的 NLP 任务 ， 例 如 语音 到 文本 转换 、 语 义 和 情 感 分 析 、 问 题 


[7] 


答 和 


机 器 翻译 。 在 图 1.1 中 ,我 们 提供 了 不 同 NLP 任务 的 层次 分 类 。 我们 首先 有 两 大 类 任务 : D 
析 现 有 文本 ) 和 生成 〈 生 成 新 文本 ) 任务 。 然 后 将 分 析 分 为 三 类 : 句法 〈 基 于 语言 结构 的 任务 ) 、 


语义 (基于 意义 的 任务 ) 和 语 用 难以 解决 的 开放 问题 ) ， 如 图 1-1 所 示 。 


目前 ， 我 们 对 于 自然 语言 处 理 及 其 各 种 任务 分 类 有 了 一 定 的 了 解 ， 下 面 我 们 将 探讨 一 下 NLP 


的 起 源 、 发 展 及 现状 。 
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图 1-1 广义 范畴 下 的 NLP 主要 任务 分 类 
13 第 一 阶段 : 偏 理论 的 理性 主义 


NLP 研究 的 第 一 次 浪潮 持续 了 很 长 一 段 时 间 , 可 以 追溯 到 20 世纪 50 年 代 。 1950 4E, 阿兰 ,图 
灵 提 出 了 图 灵 测 试 来 评估 计算 机 展示 与 人 类 无 法 区 分 的 智能 行为 的 能 力 ( 图 录 ，1950) (注意 : 本 
书 这 种 “人 名 ， 年 份 ”的 说 明 方式 用 于 读者 必要 时 查阅 下 载 资 源 文件 ， 以 确认 参考 文献 的 出 处 ) 。 
该 测试 基于 人 和 计算 机 之 问 的 自然 语言 对 话 ， 旨 在 产生 类 似 人 的 响应 。 1954 年 ，Georgetown-IBM 
实验 展示 了 第 一 个 能 够 将 60 多 个 俄语 句子 翻译 成 英语 的 机 器 翻译 系统 。 

这 些 方法 基于 这 样 一 种 信念 , 即 人 类 大 脑 中 的 语言 知识 是 通过 一 般 遗 传 而 提前 固定 下 来 的 , 这 
在 20 世纪 60 年 代 到 20 世纪 80 年 代 后 期 的 NLP 研究 中 占 主导 地 位 。 这 些 方法 被 称 为 理性 主义 方 
法 (Church，2007) 。 理 性 主义 方法 在 NLP 中 占有 主导 地 位 ， 主 要 是 由 于 诺 姆 。 乔 姆 斯 基 关 于 先 
天 语言 结构 的 论点 得 到 广泛 接受 ， 以 及 他 对 N-gram 的 批评 (Chomsky, 1957) 。 假 设 语言 的 关键 
部 分 在 出 生 时 就 已 经 扎根 于 大 脑 , 作为 人 类 遗传 的 一 部 分 , 理性 主义 方法 会 努力 设计 和 人工 制作 的 规 
则 ， 将 相关 知识 和 推理 机 制 融入 智能 NLP 系统 。 直 到 20 世纪 80 年 代 ， 最 著名 的 NLP 系统 是 基于 
复杂 的 手写 规则 集 的 ， 例 如 模拟 罗 格 氏 (Rogerian) 心理 治疗 师 的 ELIZA 和 将 现实 世界 的 信息 构 
造成 概念 本 体 的 MARGIE， 是 基于 复杂 的 手写 规则 集 。 

这 一 时 期 大 臻 与 人 工 智能 的 早期 发 展 相 吻合 ， 人工 智 能 以 专家 知识 工程 为 特征 , 行业 专家 根据 
他 们 所 拥有 的 (非常 狭窄 的 ) 应 用 领域 的 知识 设计 了 计算 机 程序 (Nilsson, 1982; Winston, 1993) 。 
专家 们 使 用 基于 细致 的 表示 和 工程 学 知识 的 符号 逻辑 规则 来 设计 这 些 程序 .这 些 基 于 知识 的 人 工 智 
能 系统 往往 通过 检查 “大 脑 ” 或 最 重要 的 参数 ， 并 针对 每 个 具体 情况 采取 适当 行动 , 从 而 有 效 地 解 
决 特定 领域 的 问题 。 这 些 “ 大 脑 ” 参 数 由 人 类 专家 提前 确定 ， 使 “尾部 ”参数 和 案例 保持 不 变 。 由 
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于 缺乏 学 习 能 力 ， 很 难 将 其 解决 方案 推广 到 新 的 场景 和 领域 。 在 此 期 间 的 典型 方法 是 专家 系统 ， 例 
如 模拟 人 类 专家 决策 能 力 的 计算 机 系统 。 这 种 系统 则 在 通过 推理 知识 来 解决 复杂 问题 (Nilsson, 

1982) 。 第 一 个 专家 系统 创建 于 20 世纪 70 年 代 , 而 后 在 20 世纪 80 年 代 兴 起 。 使 用 的 主要 “算法 ” 
是 “fthen-else” 形 式 的 推理 规则 (Jackson，1998) 。 这 些 第 一 代 人 工 智能 系统 的 主要 优势 在 于 其 
执行 逻辑 推理 《有限 的 ) 能 力 的 透明 性 和 可 解释 性 。 就 像 ELIZA 和 MARGIE 这 样 的 NLP 系统 一 
样 , 早期 的 专家 系统 使 用 人 工 制作 的 专家 知识 库 ， 这 些 知 识 在 某 些 特定 的 问题 中 往往 是 有 效 的 , 尽 
管 推理 机 制 不 能 处 理 实际 应 用 中 普遍 存在 的 不 确定 性 。 

对 于 语音 识别 的 研究 和 系统 设计 ，NLP 和 人 工 智能 面临 的 一 个 长 期 挑战 是 在 很 大 程度 上 需要 
依赖 于 专家 知识 工程 的 范式 ， 正 如 Church 和 Mercer (Church 和 Mercer, 1993) 所 分 析 的 那样 。 

1E 20 世纪 70 年 代 和 80 年 代 初 期 ,语音 识别 的 专家 系统 方法 非常 受 欢 迎 (Reddy, 1976: Zue, 1985). 

然而 , 研究 人 员 敏 锐 地 认识 到 该 阶段 缺乏 从 数据 中 学 习 和 处 理 推理 中 不 确定 性 的 能 力 , 继而 出 现 接 
下 来 描述 的 第 二 阶段 语音 识别 、NLP 和 人 工 智能 。 


14 第 二 阶段 : 偏 实践 应 用 的 经 验 主义 


该 阶段 NLP 的 特点 是 通过 数据 语料库 和 GR) 机 器 学 习 、 统 计 或 其 他 方法 来 使 用 数据 样本 
(Manning 和 Schtze, 1999) 。 由 于 自然 语言 的 大 部 分 结构 和 理论 被 数据 驱动 的 方法 所 忽视 或 抛弃 ， 
所 以 这 期 间 发 展 起 来 的 主要 方法 被 称 为 经 验 的 (或 实用 的 ) 方 法 (Church and Mercer; 1993; Church, 
2014) 。 随 着 机 器 可 读数 据 可 用 性 的 增加 和 计算 能 力 的 不 断 提高 ， 从 1990 年 开始 ， 经 验方 法 一 直 
主导 着 NLP。 其 中 一 个 主要 的 NLP 会 议 甚至 被 命名 为 “自然 语言 处 理 中 的 经 验方 法 (EMNLP) ”， 
以 最 直接 地 反映 出 NLP 研究 人 员 在 该 阶段 对 经 验方 法 的 强烈 〈 积 极 ) 倾向 性 。 

与 理性 主义 方法 相反 , 经 验方 法 假设 人 类 思维 只 从 联想 、 模 式 识别 和 概括 的 一 般 操作 着 手 。 为 
了 使 得 大 脑 更 好 地 学 习 自 然 语言 的 详细 结构 ， 需 要 存在 丰富 的 感官 输入 才 可 以 。 自 1920 年 以 来 ， 
经 验 主义 在 人 口 学 中 普遍 存在 ， 自 1990 年 以 来 经 验 主 义 也 一 直 在 复苏 。 早 期 的 NLP 经 验方 法 侧重 
于 开发 生成 模型 ， 如 隐 马 尔 可 夫 模 型 (HMM) (Baum 和 Petrie，1966) 、IBM 翻译 模型 (Brown 
等 ，1993) 和 脑 部 驱动 的 解析 模型 (Collins，1997〉 从 大 型 语料库 中 发 现 语言 的 规律 性 。 自 20 t 
纪 90 年 代 末 以 来 ， 判 别 模型 已 成 为 各 种 NLP 任务 中 实用 的 方法 。NLP 中 的 代表 性 判别 模型 和 方 
BLICK CRatnaparkhi, 1997) 、 支 持 向 量 机 CVapnik, 1998) 、 条 件 随机 场 (Lafferty 
等 ，2001) 、 最 大 互信 息 和 最 小 分 类 误差 (He 5$, 2008) 和 感知 器 (Collins, 2002) . 

同样 ，NLP 中 的 经 验 主义 时 代 与 人 工 智 能 以 及 语音 识别 和 计算 机 视觉 中 的 方法 相对 应 。 这 是 
因为 有 明确 的 证 据 表明 , 学 习 和 感知 能 力 对 于 复杂 的 人 工 智 能 系统 至 关 重 要 , 但 在 前 一 波 流行 的 专 
家 系统 中 却 缺失 了 。 例 如 ， 当 DARPA 开启 其 首次 自动 驾驶 大 挑战 时 ， 大 多 数 车 辆 依赖 于 基于 知识 
的 人 工 智能 范式 。 与 语音 识别 和 NLP 非常 相似 ， 自 动 驾 驶 和 计算 机 视觉 研究 人 员 立 即 意识 到 基于 
知识 范式 的 局 限 性 ， 因 为 机 器 学 习 必 须 具 有 不 确定 性 处 理 和 泛 化 能 

NLP 中 的 经 验 主义 和 第 二 阶段 中 的 语音 识别 是 基于 数据 密集 型 的 机 器 学 习 ， 我 们 现在 称 之 为 
“ 浅 层 ” 机 器 学 习 ， 因 为 这 里 通常 会 缺少 由 多 层 或 “深层 ”数据 表示 构成 的 抽象 ， 第 三 阶段 深度 学 
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习 方 面 将 在 后 面 继续 开展 。 在 机 器 学 习 中 ， 研 究 人 员 无 须 关 注 构建 第 一 阶段 期 间 基于 知识 的 NLP 
和 语音 系统 所 需 的 精确 度 和 正确 规则 。 他 们 关注 统计 模型 (Bishop，2006; Murphy, 2012) 或 简 
单 的 神经 网 络 CBishop, 1995) 作为 潜在 引擎 。 然后 , 他 们 使 用 充足 的 训练 数据 自动 学 习 或 “调整 ” 
引擎 的 参数 , 以 使 它们 处 理 不 确定 性 , 并 尝试 从 一 个 场景 推广 到 另 一 个 场景 ,从 一 个 域 到 另 一 个 域 。 
用 于 机 器 学 习 的 关键 算法 和 方法 包括 EM、 贝 叶 斯 网 络 、 支 持 向 量 机 、 决 策 树 及 用 于 神经 网 络 的 反 
向 传播 算法 。 

现在 回 过 头 来 看 ， 基 于 机 器 学 习 的 NLP、 语 音 识别 和 其 他 人 工 智能 系统 ， 比 早期 的 基于 知识 
的 对 应 部 分 表现 更 佳 。 诸如 一 些 成 功 的 例子 , 包括 机 器 知觉 中 的 几乎 所 有 人 工 智能 任务 一 一 语音 识 
别 (Jelinek，1998) 、 人 脸 识别 CViola 和 Jones, 2004) 、 视 觉 对 象 识 别 (Fei-Fei 和 Perona, 2005) 、 
手写 识别 CPlamondon 和 Srihari, 2000) 和 机 器 翻译 COch, 2003) 。 

具体 来 看 ， 针 对 机 器 翻译 应 用 方面 ， 传 统 方法 还 是 以 统计 方法 主 ， 我 们 也 会 在 本 书 的 第 11 章 
对 机 器 翻译 部 分 做 详细 解读 

双语 训练 数据 中 句子 级 对 齐 的 可 用 性 使 得 不 通过 规则 而 是 直接 从 数据 中 获得 表层 翻译 成 为 可 
能 ， 代 价 是 丢弃 或 忽略 自然 语言 中 的 结构 化 信息 。 当 然 ， 在 本 阶段 的 后 续 发 展 中 ,机 器 翻译 的 质量 
也 得 到 了 显著 提升 (Och 和 Ney，2002; Och, 2003; Chiang. 2007; He 和 Deng, 2012) ， 但 还 
是 没有 达到 现实 世界 中 大 规模 部 署 的 水 平 〈 后 续 深 度 学 习 阶 段 将 会 继续 探讨 ) 。 

在 NLP 的 对 话 和 口语 理解 领域 , 这 个 经 验 主义 时 代 也 以 数据 驱动 的 机 器 学 习 方法 为 显著 标志 ， 
这 些 方法 非常 适合 于 定量 评价 和 有 具体 可 交付 成 果 的 要 求 。 他 们 关注 的 是 文本 和 域 的 更 广泛 但 肤浅 的 
表层 覆盖 ,而 不 是 对 高 度 受 限 的 文本 和 域 的 详细 分 析 。 我 们 训练 数据 的 目的 , 不 是 从 对 话 系统 中 设 
计 出 有 关 语 言 理解 和 动作 反映 方面 的 规则 ,而 是 从 数据 样本 中 自动 学 习 ( 浅 层 ) 统计 或 神经 模型 方 
面 的 参数 。 这 种 学 习 有 助 于 降低 人 工 制作 复杂 对 话 管理 器 的 设计 成 本 , 并 有 助 于 提高 整体 口语 理解 
和 对 话 系 统 中 语音 识别 错误 的 鲁 棒 性 水 平 (He 和 Deng，2013) 。 具 体 来 看 ， 对 话 系统 中 对 话 策略 
部 分 ， 在 本 阶段 引入 了 基于 马尔 科 夫 决 策 过 程 的 强化 学 习 ， 有 关 评 论 ， 可 以 参阅 Young 等 人 的 文 
章 (Young 等 ，2013) 。 在 口语 理解 方面 ， 主 要 方法 从 第 一 阶段 基于 规则 或 模板 的 方法 转移 到 生成 
模型 ， 如 隐 有 马尔 科 夫 模型 (HMMs) (Wang 等 ，2011) ， 再 到 判别 模型 ， 如 条 件 随 机 场 Tur 和 
Deng，2011) 。 

同样 , 在 语音 识别 领域 , 从 20 世纪 80 年 代 早期 到 2010 年 左右 , 该 领域 主要 由 机 器 学 习 ( 浅 ) 
范式 主导 ， 使 用 基于 与 高 斯 混合 模型 集成 的 HMM 的 统计 生成 模型 ， 以 及 不 同 版 本 的 泛 化 方面 
(Baker ^$, 2009; Deng flO'Shaughnessy, 2003; Rabiner 和 Juang, 1993) 。 广 义 HMMs 的 许多 
版 本 是 基于 统计 和 神经 网 络 的 隐藏 动态 模型 (Deng, 1998; Bridle 等 ，1998; Deng 和 Yu, 2007). 
前 者 采用 EM 和 扩展 卡尔 曼 滤 波 算法 来 学 习 模 型 参数 (Ma 和 Deng，2004; Lee 等 ，2004) ; 后 者 
使 用 了 反 向 传播 (Picone 等 ，1999) 。 它 们 都 广泛 地 利用 了 多 个 潜在 的 表示 层 来 生成 语音 波形 ， 遵 
循 人 类 语音 感知 中 长 期 存在 的 通过 合成 进行 分 析 的 框架 。 更 重要 的 是 ， 将 这 种 “深层 ”生成 过 程 转 
化 为 端 到 端 判别 过 程 的 对 应 , 引起 了 深度 学 习 第 一 次 在 工业 上 的 成 功 (Deng 等 , 2010, 2013; Hinton 
等 ，2012) ， 形 成 了 第 三 阶段 的 语音 识别 和 NLP 的 驱动 力 ， 接 下 来 我 们 将 对 此 进行 阐述 。 
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15 第 三 阶段 : 深度 学 习 阶段 


虽然 在 第 二 阶段 开发 的 NLP 系统 ， 包 括 语音 识别 、 语 言 理解 和 机 器 翻译 ， 比 第 一 阶段 开发 系 
统 的 表现 更 好 ， 具 有 更 高 的 鲁 棒 性 ， 但 它们 远 未 达到 人 类 级 别 的 水 平 ， 还 有 很 多 地 方 需要 改进 。 除 
了 少数 例外 ，NLP ff] GEO 机 器 学 习 模 型 通常 没有 足够 大 的 容量 来 吸收 大 量 的 训练 数据 。 此 外 ， 
涉及 的 这 些 学 习 算 法 、 方 法 和 基础 结构 不 够 强大 。 所 有 这 一 切 都 在 几 年 前 发 生 了 很 大 变化 ,由 于 深 
层 结构 化 机 器 学 习 或 深层 学 习 的 新 范式 推动 (Bengio, 2009; Deng 和 Yu, 2014; LeCun 等 , 2015; 
Goodfellow 等 ，2016) ， 引 发 了 NLP 的 第 三 波浪 潮 。 

在 传统 的 机 器 学 习 中 ,由 于 特征 是 由 人 设计 的 ， 需 要 大 量 的 人 类 专业 知识 ， 显 然 特征 工程 也 存 
在 一 些 瓶 颈 。 同 时 ， 相 关 的 浅 层 模型 缺乏 表示 能 力 ， 因 此 缺乏 形成 可 分 解 抽象 级 别 的 能 力 ， 这 些 抽 
象 级 别 在 形成 观察 到 的 语言 数据 时 将 自动 分 离 复 杂 的 因素 。 深 度 学 习 的 进步 是 当前 NLP 和 人 工 智 
能 拐点 背后 的 主要 推动 力 ， 并 且 直 接 推动 了 神经 网 络 的 复兴 ， 包 括 商业 领域 的 广泛 应 用 CParloff, 
2016) 。 

进一步 讲 ， 尽 管 在 第 二 次 浪潮 期 间 开 发 的 许多 重要 的 NLP 任务 中 ， 判 别 模型 〈 浅 层 ) 取得 了 
成 功 , 但 它们 仍然 难以 通过 行业 专家 人 工 设 计 特征 来 涵盖 语言 中 的 所 有 规则 。 除了 不 完整 性 问题 之 
外 ， 这 种 浅 层 模型 还 面临 稀疏 性 问题 ， 因 为 特征 通常 仅 在 训练 数据 中 出 现 一 次 ， 特 别 是 对 于 高 度 稀 
疏 的 高 阶 特征 。 因 此 ， 在 深度 学 习 出 现 之 前 ， 特 征 设 计 已 经 成 为 统计 NLP 的 主要 障碍 之 一 。 深 度 
学 习 为 解决 我 们 的 特征 工程 问题 带 来 了 希望 , 其 观点 被 称 为 “从头 开 始 NLP”(Collobert 等 , 2011), 
这 在 深度 学 习 早 期 被 认为 是 非 同 寻常 的 。 这 种 深度 学 习 方 法 利用 了 包含 多 个 隐藏 层 的 强大 神经 网 络 
来 解决 一 般 的 机 器 学 习 任务 ， 而 无 须 特 征 工 程 。 与 浅 层 神经 网 络 和 相关 的 机 器 学 习 模 型 不 同 ， 深 层 
神经 网 络 能 够 利用 多 层 非 线 性 处 理 单元 的 级 联 来 从 数据 中 学 习 表示 以 进行 特征 提取 。 由 于 较 高 级 别 
的 特征 源 自 于 较 低级 别 的 特征 ， 因 此 这 些 级 别 构成 了 概念 上 的 层次 结构 。 

深度 学 习 起 源 于 人 工 神经 网 络 , 可 以 将 其 视 为 受 生 物 神经 系统 启发 的 细胞 类 型 的 级 联 模型 。 随 
着 反 向 传播 算法 的 出 现 CRumelhart 等 ，1986) ， 从 零 开始 训练 深度 神经 网 络 在 20 世纪 90 年 代 受 
到 了 广泛 的 关注 。 其 实在 早期 ， 由 于 没有 大 量 的 训练 数据 ， 也 没有 适当 的 设计 模式 和 学 习 方 法 ,在 
神经 网 络 训练 期 间 , 学 习 信 和 号 在 层 与 层 之 问 传播 时 会 随 着 层 数 呈 指数 级 消失 , 难以 调整 深度 神经 网 
络 的 连接 权重 值 ， 尤 其 是 循环 模式 。Hinton 等 人 最 初 克服 了 这 个 问题 (Hinton 等 ，2006) ,使 用 
无 监督 的 预 训练 ,首先 学 习 通常 有 用 的 特征 检测 器 ， 然 后 通过 监督 学 习 进一步 训练 网 络 ， 进 而 对 标 
记 数 据 进 行 分 类 。 因 此 ， 可 以 使 用 低级 表示 来 学 习 高 级 表示 的 分 布 。 这 项 开创 性 的 工作 标志 着 神经 
网 络 的 复兴 。 此 后 各 种 网 络 架构 被 提出 并 开发 出 来 ， 包 括 深度 信念 网 络 (deep belief networks) 
(Hinton $, 20060 、 栈 式 自动 编码 器 (stacked auto-encoders) (Vincent $, 20100 、 深 度 玻 尔 
2& 5$ BL (deep Boltzmann machines) (Hinton 和 Salakhutdinov, 2012)、 深 度 卷 积 神经 网 络 (Krizhevsky 
等 ，2012) 、 深 度 堆 又 网 络 (deep stacking networks) (Deng 等 ，2012) 以 及 深度 Q 网 络 (Mnih 
5$, 2015) . 2010 年 以 来 ， 深 度 学 习 能 够 发 现 高 维 数据 中 复杂 的 结构 ， 己 成 功 应 用 于 人 工 智 能 的 
各 种 实际 任务 中 ， 尤 其 是 语音 识别 (Yu 等 ，2010; Hinton 等 ，2012) 、 图 像 分 类 CKrizhevsky 等 ， 
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2012; He 等 ，2016) 和 NLP。 

语音 识别 是 NLP 的 核心 任务 之 一 ， 且 它 在 工业 NLP 实际 应 用 中 受到 深度 学 习 很 大 的 影响 ， 所 
以 我 们 这 里 对 此 进行 一 些 解读 。 深 度 学 习 在 大 规模 语音 识别 中 的 工业 应 用 在 2010 年 左右 开始 起 飞 。 
相关 工作 是 由 学 术 界 和 产业 界 合作 发 起 的 ， 最 初 的 成 果 是 在 2009 年 NIPS 语音 识别 和 相关 应 用 的 
深度 学 习 研讨 会 上 发 布 的 。 这 次 研讨 会 的 目的 是 语音 深层 生成 模型 的 局 限 性 ， 以 及 大 计算 、 大 数据 
时 代 需 要 对 深层 神经 网 络 进行 认真 研究 的 可 能 性 。 当 时 认为 ， 使 用 基于 对 比 散 度 学 习 算法 

(Contrastive Divergence Learning Algorithm) 的 深度 信念 网 络 生成 模型 进行 DNNs 预 处 理 ， 可 以 克 
Jl 20 世纪 90 年 代 神 经 网 络 遇 到 的 主要 困难 (Dahl 等 ，2011; Mohamed 等 ，2009) 。 然 而 ， 在 微 
软 早期 关于 这 项 的 研究 中 ， 人 们 发 现 ， 没 有 对 比 散 度 预 训练 ， 而 是 使 用 大 量 的 训练 数据 ， 连 同 深层 
神经 网 络 ， 这 些 深 层 神经 网 络 设计 成 具有 相应 的 大 型 、 上 下 文 相 关 的 输出 层 ， 并 且 经 过 精心 的 工程 
设计 ， 可 以 获得 比 当时 最 先进 的 〈 浅 ) 机 器 学 习 系统 显著 更 低 的 识别 误差 (Yu 等 ，2010，2011; 
Dahl 等 ，2012) 。 北 美的 其 他 几 个 主要 语音 识别 研究 小 组 CHinton 等 ，2012 年 ， Deng 等 ，2013 
年 ) 以 及 随后 一 些 海外 研究 小 组 很 快 就 证 实 了 这 一 发 现 。 此 外 , 还 发 现 这 两 种 类 型 系统 产生 的 识别 
错误 的 本 质 是 不 同 的 , 这 为 如 何 将 深度 学 习 集成 到 现 有 的 由 主要 参与 者 在 语音 识别 中 部 署 的 高 效 运 
行 的 语音 解码 系统 提供 了 技术 支持 (Yu 和 Deng. 2015; Abdel-Hamid ^$, 2014; Xiong 等 ，2016; 
Saon 等 ，2017) 。 如 今 ， 应 用 于 各 种 形式 的 深层 神经 网 络 的 反 向 传播 算法 被 统一 应 用 于 所 有 当前 
最 先进 的 语音 识别 系统 (Yu 和 Deng，2015; Amodei 等 ，2016; Saon 等 ，2017) ， 以 及 所 有 主要 
的 商业 语音 识别 系统 一 一 微软 Cortana, Xbox, Skype 翻译 、 亚 马 Alexa, KHIL WR Siri, 
百度 小 度 和 下 lyTek 语音 搜索 等 一 一 都 基于 深度 学 习 方 法 。 

2010 年 、2011 年 语音 识别 的 惊人 成 功 预示 着 第 三 波 NLP 和 人 工 智能 的 到 来 。 随 着 深度 学 习 在 
语音 识别 领域 的 成 功 ， 计 算 机 视觉 (Krizhevsky 等 ，2012) 和 机 器 翻译 (Bahdanau 等 ，2015) 也 
很 快 被 类 似 的 深度 学 习 范 式 所 取代 。 特 别 是 ， 虽 然 早 在 2001 年 就 开发 了 强大 的 词汇 神经 词 嵌入 技 
术 (Bengio 等 ，2001，Bengio 等 人 在 2001 年 发 表 在 NIPS 上 的 文章 《4 Neural Probabilistic 
Language Model》， 现 在 多 数 看 到 的 是 他 们 在 2003 年 投 到 JMLR 上 的 同名 论文 ) ， 但 直到 十 多 
年 后 , 由 于 大 数据 的 可 用 性 和 计算 机 更 快 的 计算 能 力 , 它 才 被 证 明 在 实际 大 规模 场景 下 具有 真正 的 
价值 CMikolov 等 ,2013) 。 此 外 , 还 有 大 量 的 其 他 NLP 应 用 ,如 图 像 字幕 (Karpathy 和 Fei-Fei， 
2015; Fang 等 , 2015; Gan 等 人 , 2017)、 视 觉 问 答 (Fei-Fei 和 Perona,，2016)、 语 音 理解 (Mesnil 
等 ，2013) 、 网 络 搜索 (Huang ^$, 2013) 和 推荐 系统 ， 由 于 深度 学 习 的 广泛 应 用 ， 也 有 许多 非 
NLP 任务 ， 像 药物 发 现 和 毒 理学 、 客 户 关 系 管理 、 手 势 识别 、 医 学 信息 学 、 广 告 、 医 学 图 像 分 析 、 
机 器 人 、 无 人 驾驶 车 辆 和 电子 竞技 游戏 (例如 ， 雅 达 利 Atari、Go、 扑 克 和 最 新 的 DOTA2) 等 。 

在 基于 文本 的 NLP 应 用 领域 ， 机 器 翻译 可 能 受到 深度 学 习 的 影响 最 大 。 当 前 ， 在 实际 应 用 中 
表现 最 佳 的 机 器 翻译 系统 是 基于 深度 神经 网 络 的 模式 ， 例 如 ， 谷 歌 于 2016 年 9 月 宣布 开发 第 一 阶 
段 的 神经 网 络 机 器 翻译 ， 而 微软 在 2 个 月 后 发 表 了 类 似 的 声明 。Facebook 已 经 致力 于 神经 网 络 机 
器 翻译 一 年 左右 , 到 2017 年 8 月 , 它 正在 全 面部 署 。 最近, 谷歌 发 布 了 机 器 翻译 领域 最 强 的 BERT 
的 多 语言 模型 。BERT 的 全 称 是 Bidirectional Encoder Representations from Transformers， 是 一 种 预 
训练 语言 表示 的 最 新 方法 。 

BERT 在 机 器 阅读 理解 顶级 水 平 测试 SQuAD1.1 中 表现 出 惊人 的 成 绩 : 两 个 衡量 指标 上 全 面 超 
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越 人 类 , 而 且 在 11 种 不 同 NLP 测试 中 同样 给 出 了 最 好 的 成 绩 , 其 中 包括 将 GLUE 基准 推 至 80.4% 
(绝对 改进 率 7.626) , MultiNLI 准确 度 达到 86.7% (绝对 改进 率 5.6% ) 等 。 对 于 机 器 翻译 的 解读 ， 
本 书 也 会 在 第 11 章 进行 深入 探讨 。 

在 将 深度 学 习 应 用 于 NLP 问题 的 过 程 中 ， 近 年 来 出 现 的 两 个 重要 技术 突破 是 序列 到 序列 学 习 
(Sutskevar 等 ，2014) 和 注意 力 建 模 (Bahdanau ^$, 20150 。 序 列 到 序列 学 习 引入 了 一 个 强大 的 
思想 , 即 利 用 循环 网 络 以 端 到 端的 方式 进行 编码 和 解码 。 虽 然 注意 力 建 模 最 初 是 为 了 解决 对 长 序列 
进行 编码 的 困难 ， 但 随后 的 发 展 显然 扩展 了 它 的 功能 ， 能 够 对 任意 两 个 序列 进行 高 度 灵活 的 排列 ， 
且 可 以 与 神经 网 络 参数 一 起 进行 学 习 。 与 基于 统计 学 习 和 单词 \ 短 语 的 局 部 表示 的 最 佳 系统 相 比 ， 
序列 到 序列 学 习 和 注意 力 机 制 的 关键 思想 提高 了 基于 分 布 式 嵌 入 的 神经 网 络 机 器 翻译 的 性 能 。 在 这 
一 成 功 之 后 不 久 ， 这 些 概念 也 被 成 功 地 应 用 到 其 他 一 些 与 NLP 相关 的 任务 中 ， 例 如 图 像 字幕 生成 
(Karpathy 和 Fei-Fei, 2015; Devlin 等 ，2015) 、 语 音 识别 〈Chorowski 等 ，2015) 、 句 法 解析 、 
文本 理解 、 问 答 系统 等 。 

其 实 , 基于 神经 网 络 的 深度 学 习 模型 通常 比 早期 开发 的 传统 机 器 学 习 模 型 更 易于 设计 。 在 许多 
用 中 ， 以 端 到 端的 方式 同时 对 模型 的 所 有 部 分 执行 深度 学 习 ， 从 特征 提取 一 直到 预测 。 促 成 神经 
网 络 模型 简化 的 另 一 个 因素 是 相同 模型 构建 的 模块 (例如 不 同类 型 的 层 ) 通常 也 可 以 适用 于 许多 不 
同 的 任务 。 另 外 ， 还 开发 了 软件 工具 包 ， 以 便 更 快 更 有 效 地 实现 这 些 模型 。 基 于 这 些 原 因 ， 深 度 神 
经 网 络 现在 是 大 型 数据 集 (包括 NLP 任务 ) 上 的 各 种 机 器 学 习 和 人 工 智 能 任务 的 主要 选择 方法 。 

尽管 深度 学 习 已 经 被 证 明 能 够 以 革命 性 的 方式 对 语音 、 图 像 和 视频 进行 重 塑 处 理 , 并 且 在 许多 
实际 的 NLP 任务 中 取得 了 经 验 上 的 成 功 , 在 将 深度 学 习 与 基于 文本 的 NLP 进行 交叉 时 ， 但 其 效果 

却 不 那么 明显 。 在 语音 、 图 像 和 视频 处 理 中 , 深度 学 习 通 过 直接 从 原始 感知 数据 中 学 习 高 级 别 概念 ， 
有 效 地 解决 了 语义 鸿沟 问题 。 然 而 ， 在 NLP 中 ， 研 究 人 员 在 形态 学 、 句 法 和 语义 学 上 提出 了 更 强 
大 的 理论 和 结构 化 模型 ,提炼 出 了 理解 和 生成 自然 语言 的 基本 机 制 ,但 这 些 机 制 与 神经 网 络 并 不 容 
易 兼 容 。 与 语音 、 图 像 和 视频 信号 相 比 ， 从 文本 数据 中 学 习 到 的 神经 表征 似乎 不 能 同样 直接 洞察 自 
然 语 言 。 因 此 ， 将 神经 网 络 特别 是 具有 复杂 层次 结构 的 神经 网 络 应 用 于 NLP， 近 年 来 得 到 了 越 来 
越 多 的 关注 , 也 已 经 成 为 NLP 和 深度 学 习 社区 中 最 活跃 的 领域 ,并 取得 了 显著 的 进步 (Deng,2016; 
Manning 和 Socher，2017) 。 


1.6 NLP 中 深度 学 习 的 局 限 性 


目前 ， 尽 管 深度 学 习 在 NLP 任务 中 取得 了 巨大 的 成 功 ， 尤 其 是 在 语音 识别 /理解 、 语 言 建 模 和 
机 器 翻译 方面 ， 但 目前 仍然 存在 着 一 些 巨大 的 挑战 。 目 前 基于 神经 网 络 作为 黑 盒 的 深度 学 习 方法 普遍 
缺乏 可 解释 性 ， 甚 至 是 远离 可 解释 性 ， 而 在 NLP 的 理论 阶段 建立 的 “理性 主义 ”范式 中 ， 专 家 设计 的 
规则 自然 是 可 解释 的 。 在 现实 工作 任务 中 ， 其 实 是 迫切 需要 从 “ 黑 盒 ”模型 中 得 到 关于 预测 的 解释 ， 
这 不 仅仅 是 为 了 改进 模型 ， 也 是 为 了 给 系统 使 用 者 提供 有 针对 性 的 合理 建议 (Koh M Liang, 2017) 。 

在 许多 应 用 中 ,深度 学 习 方 法 已 经 证 明 其 识别 准确 率 接近 或 超过 人 类 , 但 与 人 类 相 比 , 它 需要 
更 多 的 训练 数据 、 功 耗 和 计算 资源 。 从 整体 统计 的 角度 来 看 ， 其 精确 度 的 结果 令 人 印象 深刻 , 但 从 


4 


10 | TensorFlow 与 自然 语言 处 理应 用 


个 体 角度 来 看 往往 不 可 靠 。 而 且 ， 当 前 大 多 数 深度 学 习 模 型 没有 推理 和 解释 能 力 ， 使 得 它们 容易 遭 
受灾 难 性 失败 或 攻击 ， 而 没有 能 力 预 见 并 因此 防止 这 类 失败 或 攻击 。 另 外 ， 目 前 的 NLP 模型 没有 
考虑 到 通过 最 终 的 NLP 系统 制定 和 执行 决策 目标 及 计划 的 必要 性 。 当 前 NLP 中 基于 深度 学 习 方 法 
的 一 个 局 限 性 是 理解 和 推理 句子 间 关 系 的 能 力 较 差 , 尽管 在 句子 中 的 词 问 和 短语 方面 已 经 取得 了 巨 
大 进步 。 

目前 ， 在 NLP 任务 中 使 用 深度 学 习 时 ， 虽 然 我 们 可 以 使 用 基于 〈 双 向 ) LSTM 的 标准 序列 模 
型 , 上 且 遇 到 任务 中 涉及 的 信息 来 自 于 另外 一 个 数据 源 时 可 以 使 用 端 到 端的 方式 训练 整个 模型 ， 但 是 
实际 上 人 类 对 于 自然 语言 的 理解 〈 以 文本 形式 ) 需要 比 序列 模型 更 复杂 的 结构 。 换 句 话说 ， 当 前 
NLP 中 基于 序列 的 深度 学 习 系统 在 利用 模块 化 、 结 构 化 记忆 和 用 于 句子 及 更 大 文本 进行 递归 、 树 
状 表示 方面 还 存在 优化 的 空间 (Manning，2016) 。 

为 了 克服 上 述 挑战 并 实现 NLP 作为 人 工 智 能 核心 领域 的 更 大 突破 , 有关 NLP 和 深度 学 习 研 究 
人 员 需 要 在 基础 研究 和 应 用 研究 方面 做 出 一 些 里 程 碑 式 的 工作 。 


1.7 NLP 的 应 用 场景 


目前 , 随 着 自然 语言 处 理 领域 研究 越 来 越 深入 ， 其 应 用 的 行业 越 来 越 广 。 比 如 在 文本 和 语音 方 
面 的 应 用 。 其 中 ， 我 们 可 以 看 到 NLP 在 文本 方面 的 应 用 有 基于 自然 语言 理解 的 智能 搜索 引擎 和 知 
能 检索 、 智 能 机 器 翻译 、 自 动 摘要 与 文本 综合 、 文 本 分 类 与 文件 整理 、 智 能 自动 作文 系统 、 智 能 判 
卷 系统 、 信 息 过 滤 与 垃圾 邮件 处 理 、 文 学 研究 与 古文 研究 、 语 法 校对 、 文 本 数据 挖掘 与 智能 决策 以 
及 基于 自然 语言 的 计算 机 程序 设计 等 。 在 语音 方面 的 应 用 有 机 器 同 声 传 译 、 智 能 远程 教学 与 答疑 、 
语音 控制 、 智 能 客户 服务 、 机 器 聊天 与 智能 参谋 、 智 能 交通 信息 服务 (ATIS) 、 智 能 解说 与 体育 
新 闻 实时 解说 ,语音 挖掘 与 多 媒体 挖掘 ` 多 媒体 信息 提取 与 文本 转化 以 及 对 残疾 人 智能 帮助 系统 等 。 
下 面 我 们 给 出 一 些 常见 的 应 用 场景 。 


1 . 搜索 引擎 


在 搜索 引擎 中 , 我们 常常 使 用 词义 消 歧 、 指 代 消 解 、 句 法 分 析 等 自然 语言 处 理 技术 ,以便 更 好 
地 为 用 户 提供 更 加 优质 的 服务 。 因为 我 们 的 搜索 引擎 不 仅仅 是 为 用 户 提供 所 寻找 的 答案 , 还 要 做 好 
用 户 与 实体 世界 连接 的 贴心 服务 。 搜 索引 擎 最 基本 的 模式 就 是 自动 化 地 聚合 足够 多 的 信息 , 对 之 进 
行 解析 、 处 理 和 组 织 , 响应 用 户 的 搜索 请 求 并 找到 对 应 结果 再 返回 给 用 户 。 这 里 涉及 的 每 一 个 环节 ， 
都 需要 用 到 自然 语言 处 理 技术 。 例如 , 我 们 日 常生 活 中 使 用 百度 搜索 “天 气 ”“XX 公交 线路 ”“ 火 
车 票 ”等 这 样 咯 显 模糊 的 需求 信息 , 一般 情 况 下 都 会 得 到 满意 的 搜索 结果 。 自 然 语言 处 理 技术 在 搜 
索引 擎 领域 中 有 了 更 多 的 应 用 , 才 使 得 搜索 引擎 能 够 快速 精准 地 返回 给 用 户 所 要 的 搜索 结果 。 当 然 ， 
另 一 方面 ， 正 是 谷歌 和 百度 这 样 I 巨头 商业 上 的 成 功 ， 推 进 了 自然 语言 处 理 技术 的 不 断 进步 。 


2 . 推荐 系统 


HE 1992 年 Goldberg 就 首次 给 出 了 一 个 推荐 系统 : Tapestry。 它 其 实 只 是 一 个 个 性 化 的 邮件 
推荐 系统 , 首次 提出 了 协同 过 滤 的 思想 , 利用 用 户 的 标注 和 行为 信息 对 邮件 进行 重 排序 。 推 荐 系统 
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依赖 的 是 数据 、 算 法 、 人 机 交互 等 环节 的 相互 配合 ， 其 中 使 用 了 数据 挖掘 、 信 息 检索 和 计算 统计 学 
等 技术 。 我 们 使 用 推荐 系统 的 目的 是 关联 用 户 和 一 些 信 息 , 协助 用 户 找 到 对 其 有 价值 的 信息 ， 且 让 
这 些 信息 能 够 尽快 呈现 在 对 其 感 兴趣 的 用 户 面前 ， 从 而 实现 精准 推荐 。 

推荐 系统 在 音乐 电影 的 推荐 、 电 子 商务 产品 推荐 、 个 性 化 阅读 、 社 交 网 络 好 友 推 荐 等 场景 发 挥 
着 重要 的 作用 , 美国 Netflix 中 2/3 的 电影 是 因为 被 推荐 而 观看 的 ， Google News 利用 推荐 系统 提 
FET 38% 的 点 击 率 ，Amazon 的 销售 中 推荐 占 比 高 达 35%。 


3 . 机 器 翻译 


机 器 翻译 是 自然 语言 处 理 中 最 为 人 知 的 应 用 场景 , 一般 是 将 机 器 翻译 作为 某 个 应 用 的 组 成 部 分 ， 
例如 跨 语言 的 搜索 引流 等 。 目 前 以 IBM、 谷 歌 、 微 软 为 代表 的 国外 科研 机 构 和 企业 均 相 继 成 立 机 
器 翻译 团队 ， 专 门 从 事 智能 翻译 研究 。 例 如 ，IBM 于 2009 年 9 月 推出 ViaVoiceTranslator 机 器 
翻译 软件 ， 为 自动 化 翻译 商定 了 基础 ; 2011 年 开始 ， 伴 随 着 语音 识别 、 机 器 翻译 技术 、DNN GR 
度 神 经 网 络 ) 技术 的 快速 发 展 和 经 济 全 球 化 的 需求 , 口语 自动 翻译 研究 已 成 为 当今 信息 处 理 领域 新 
的 研究 热点 ，Google 于 2011 年 1 月 正式 在 其 Android 系统 上 推出 了 升级 版 的 机 器 翻译 服务 ; 
微软 的 Skype 于 2014 年 12 月 宣布 推出 实时 机 器 翻译 的 预览 版 、 支 持 英语 和 西班牙 语 的 实时 翻 
译 ， 并 宣布 支持 40 多 种 语言 的 文本 实时 翻译 功能 。 

尤其 值得 注意 的 是 ， 在 “一 带 一 路 ”这 一 发 展 背景 下 ， 合 作 沟 通 会 涉及 60 多 个 国家 、53 种 
语言 ， 此 时 机 器 翻译 的 技术 应 用 显得 尤为 重要 ， 语 言 的 畅通 是 “一 带 一 路 ”倡议 得 以 实施 的 重要 基 
础 。 机 器 翻译 涉及 语义 分 析 、 上 下 文 环境 等 诸多 挑战 ， 其 发 展 道路 还 有 很 长 一 段 路 要 走 。 

4 . 聊天 机 器 人 


聊天 机 器 人 是 指 能 通过 聊天 App、 聊 天 窗口 或 语音 唤醒 App 进行 交流 的 计算 机 程序 ， 是 被 用 
来 解决 客户 问题 的 智能 数字 化 助手 ， 其 特点 是 成 本 低 、 高 效 且 持续 工作 。 例 如 ，Siri、 小 娜 等 对 话 
机 器 人 就 是 一 个 应 用 场景 。 除 此 之 外 ， 聊 天 机 器 人 在 一 些 电 商 网 站 有 着 很 实用 的 价值 ， 可 以 充当 客 
服 角色 ， 例 如 京东 客服 JIMI。 有 很 多 基本 的 问题 ， 其 实 并 不 需要 联系 人 工 客服 来 解决 。 通 过 应 用 
智能 问答 系统 ， 可 以 排除 掉 大 量 的 用 户 问题 ， 比 如 商品 的 质量 投诉 、 商 品 的 基本 信息 查询 等 程式 化 
问题 , 在 这 些 特定 的 场景 中 , 特别 是 会 被 问 到 高 度 可 预测 的 问题 中 , 利用 聊天 机 器 人 可 以 节省 大 量 
的 人 工 成 本 。 图 1-2 给 出 了 一 些 聊 天 机 器 人 产品 。 

5 . 知识 图 谱 

知识 图 谱 能 够 描述 复杂 的 关联 关系 , 它 的 应 用 极为 广泛 , 最 为 人 所 知 的 就 是 被 用 在 搜索 引擎 中 
丰富 搜索 结果 ， 并 为 搜索 结果 提供 结构 化 结果 来 体现 关联 性 ， 这 也 是 谷歌 提出 知识 图 谱 的 初衷 。 同 
时 微软 小 冰 、 苹 果 Siri 等 聊天 机 器 人 中 也 加 入 了 知识 图 谱 的 应 用 。IBM Watson 是 问答 系统 中 应 用 
知识 图 谱 较 为 典型 的 例子 。 按 照应 用 方式 , 可 以 将 知识 图 谱 的 应 用 分 为 语义 搜索 、 知识 问答 以 及 基 
于 知识 的 大 数据 分 析 和 决策 等 。 
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时 间 


图 1-2 部 分 聊天 机 器 人 示意 图 
语义 搜索 利用 建立 大 规模 知识 库 对 搜索 关键 词 和 文档 内 容 进 行 语义 标注 , 改善 搜索 结果 ,如 谷 
歌 、 百 度 等 在 搜索 结果 中 嵌入 知识 图 谱 。 知 识 问 答 是 基于 知识 库 的 问答 ,通过 对 提问 句子 的 语义 分 
Vr, 将 其 解析 为 结构 化 的 询问 ,在 已 有 的 知识 库 中 获取 答案 。 在 大 数据 的 分 析 和 决策 方面 ， 知 识 图 
谱 起 到 了 辅助 作用 , 典型 应 用 是 美国 Netflix 公司 利用 其 订阅 用 户 的 注册 信息 以 及 观看 行为 构建 的 
知识 图 谱 反 映 出 英 剧 版 《纸牌 屋 》 很 受 欢 迎 ， 于 是 拍摄 了 美剧 《纸牌 屋 》， 大 受 追 捧 。 知 识 图 谱 展 
示 如 图 1-3 所 示 。 
= Google 


Bin. = IBM Watson Health. 
E DM 


1-3 ”知识 图 谱 展 示 图 
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18 NLP 的 发 展 前 景 


随 着 深度 学 习 时 代 的 来 临 , 神经 网 络 成 为 一 种 强大 的 机 器 学 习 工具 , 并 使 得 自然 语言 处 理 取得 
了 许多 突破 性 发 展 ， 如 情感 分 析 、 智 能 问答 、 机 器 翻译 等 领域 都 在 飞速 发 展 。 下 面 我 们 梳理 一 些 自 
然 语言 处 理 近期 热点 和 全 球 热点 的 情况 。 

1. 文本 理解 与 推理 : 浅 层 分 析 向 深度 理解 迈进 

谷歌 等 公司 已 经 推出 了 以 阅读 理解 作为 深入 探索 自然 语言 理解 的 平台 。 

文本 理解 和 推理 是 自然 语言 处 理 的 重要 部 分 ,现在 的 机 器 软件 已 经 可 以 根据 文本 的 上 下 文 来 分 
辨 代词 等 指示 词 ， 这 是 文本 理解 与 推理 从 浅 层 分 析 向 深度 理解 迈进 的 重要 一 步 。 

2 . 对 话机 器 人 : 实用 化 、 场 景 化 

从 最 初 2012 年 到 2014 年 的 语音 助手 , 到 2014 年 起 逐渐 出 现 的 聊天 机 器 人 微软 小 冰 、 百 度 
小 度 ， 再 到 2016 年 哈尔滨 工业 大 学 SCR 的 笨 策 ， 对 话机 器 人 越 来 越 智 能 。 最 初 的 语音 助手 可 以 
听 得 到 但 是 听 不 懂 , 之 后 的 对 话机 器 人 可 以 听 得 懂 但 是 实用 性 却 不 强 , 现在 对 话机 器 人 更 多 的 是 和 
场景 结合 ， 即 在 特定 场景 做 有 用 的 人 机 对 话 。 

3 . NLP+ 行 业 : 与 专业 领域 深度 结合 

银行 、 电 器 、 医 药 、 司 法 、 教 育 等 领域 对 自然 语言 处 理 的 需求 都 非常 多 。 自 然 语言 处 理 与 各 行 
各 业 的 结合 越 来 越 紧密 ， 专 业 化 的 服务 趋势 逐渐 增强 。 可 以 预测 ， 自 然 语言 处 理 首先 会 在 信息 准备 
充分 并 且 服 务 方式 本 身 就 是 知识 和 信息 的 领域 产生 突破 ， 例 如 医疗 、 金 融 、 教 育 和 司法 领域 。 

4 . 学 习 模式 : 先 验 语言 知识 与 深度 学 习 结合 

自然 语言 处 理 中 学 习 模 式 有 一 个 较为 明显 的 变化 。 在 浅 层 到 深层 的 学 习 模式 中 , 浅 层 学 习 是 分 
步骤 的 ， 深 度 学 习 的 方法 贯穿 在 浅 层 分 析 的 每 个 步骤 中 ， 由 各 个 步骤 连接 而 成 。 而 直接 的 深度 学 习 
则 是 直接 从 端 到 端 ， 人 为 贡献 的 知识 在 深度 学 习 中 所 占 的 比重 大 幅度 减 小 。 但 如 何 将 深度 学 习 应 
于 自然 语言 处 理 需要 进行 更 多 的 研究 和 探索 , 针对 不 同 任务 的 不 同 字 词 表 示 , 将 先 验 知识 和 深度 学 
习 相 结合 是 未 来 的 一 个 发 展 趋势 。 

5 . 文本 情感 分 析 : 事实 性 文本 到 情感 文本 

之 前 的 研究 主要 是 新 闻 领域 的 事实 性 文本 , 现在 情感 文本 分 析 更 受 重视 , 并且 在 商业 和 政府 与 
情 上 可 以 得 到 很 好 的 应 用 。 例 如 ，2017 年 新 浪 微 与 情 和 哈尔滨 工业 大 学 推出 “情绪 地 图 ”， 网 民 
可 以 登录 新 浪 和 与 情 官 方 网 站 查询 任何 关键 词 的 “情绪 地 图 ”， 这 是 语义 情绪 分 析 在 与 情 分 析 产 业 上 
的 首次 正式 应 用 。 
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1.9 总 结 


C= 


在 本 章 中 , 为 了 建立 本 书 的 基本 框架 , 我 们 首先 解释 了 为 什么 我 们 需要 NLP, 然后 讨论 了 NLP 
的 各 类 任务 。 对 于 NLP 的 来 龙 去 脉 ， 我 们 又 从 理性 主义 和 经 验 主义 到 当前 深层 学 习 浪 潮 的 三 次 自 
然 语言 处 理 浪潮 出 发 , 回顾 了 自然 语言 处 理 领域 几 十 年 来 的 历史 发 展 情况 ,以 便 从 历史 发 展 中 提炼 
出 有 助 于 指导 未 来 方向 的 见解 。 接 着 , 我 们 对 于 当前 NLP 中 深度 学 习 的 局 限 性 进行 了 解读 。 最 后 ， 
我 们 对 于 NLP 中 的 应 用 场景 和 前 景 做 了 简 述 。 

首先 ， 我 们 通过 一 个 日 常生 活 中 常见 的 寻找 小 吃 店 位 置 的 例子 开启 了 解读 NLP 的 篇 章 ， 并 对 
NLP 主要 的 工作 任务 进行 了 初步 划分 ， 包 括 标记 化 、 词 义 消 歧 、 词 性 标注 、 实 体 命名 识别 、 句 子 
或 概要 分 类 、 文 本 生成 、 问 答 系统 、 机 器 翻译 等 。 

其 次 , 通过 对 于 NLP 发 展 的 三 个 阶段 的 分 析 ， 我 们 知道 当前 的 NLP 深度 学 习 技术 是 从 前 两 波 
发 展 起 来 的 一 种 NLP 技术 概念 和 范式 上 的 革新 。 这 场 革新 的 关键 支撑 包括 通过 嵌入 对 语言 实体 ( 子 
单词 、 单 词 、 短 语 、 句 子 、 段 落 、 文 档 等 ) 的 分 布 式 表示 、 嵌 入 引起 的 语义 概括 、 语 言 的 大 跨度 深 
层 序列 建 模 、 能 够 从 低 到 高 有 效 表达 语言 水 平 的 层次 网 络 以 及 端 到 端的 深度 学 习 方法 ， 以 共同 解决 
许多 NLP 任务 中 的 问题 。 在 深度 学 习 浪潮 出 现 之 前 ， 这 些 都 是 不 可 能 实现 的 ， 这 不 仅 是 因为 之 前 
的 两 次 发 展 浪潮 缺乏 大 数据 和 强大 的 计算 能 力 , 更 重要 的 是 在 于 近年 来 深度 学 习 范式 出 现 了 之 前 缺 
少 的 正确 框架 。 

接着 ,我 们 对 于 当前 NLP 领域 深度 学 习 方面 的 局 限 性 进行 了 解读 ， 并 给 出 了 局 限 性 存在 的 成 
因 和 简要 的 解决 之 道 。 

最 后 ， 我 们 对 于 NLP 的 常见 应 用 领域 进行 了 说 明 并 给 出 了 NLP 的 发 展 前 景 。 

总 之 ， 深 度 学 习 开 创 了 一 个 新 的 世界 ， 使 得 NLP 比 过 去 任何 时 候 都 更 具有 活力 。 深 度 学 习 不 
仅 提供 了 一 个 强大 的 建 模 框架 , 用 于 表示 计算 机 系统 中 人 类 自然 语言 的 认 知 能 力 , 更 重要 的 是 , 它 
已 经 在 NLP 的 许多 关键 应 用 领域 创造 了 卓越 的 实际 效果 。 在 本 书 的 其 余 章节 中 ， 将 提供 使 用 深度 
学 习 框 架 开 发 (具体 利用 TensorFlow 工具 ) 的 NLP 技术 的 详细 描述 ， 同 时 也 希望 本 书 能 够 对 NLP 
领域 的 人 员 有 一 些 帮助 ， 以 便 使 得 NLP 领域 有 更 多 突破 性 成 果 的 出 现 。 接 下 来 的 一 章 ， 我 们 将 介 
绍 深度 学 习 基础 。 


2.4 深度 学 习 介 绍 


具有 机 器 学 习 基础 的 朋友 可 能 都 知道 , 机 器 学 习 实际 上 是 一 个 寻找 最 优 模型 的 过 程 。 深 度 学 习 
是 机 器 学 习 的 一 个 扩展 领域 , 其 概念 源 自 于 科学 家 对 人 工 网 络 长 期 研究 的 积累 ， 深度 学 习 的 基本 结 
构 其 实 也 是 深度 神经 网 络 。 在 深度 学 习 下 实现 的 算法 集合 与 人 类 大 脑 中 的 刺激 和 神经 元 之 问 的 关系 
具有 相似 之 处 。 深 度 学 习 在 计算 机 视觉 、 语 言 翻译 、 语 音 识别 、 图 像 识 别 等 方面 具有 广泛 的 应 用 。 
这 些 算 法 集 很 简单 ， 既 可 以 在 有 监督 的 情况 下 学 习 ， 也 可 以 在 无 监督 的 情况 下 学 习 。 

大 多 数 的 深度 学 习 算 法 都 是 基于 人 工 神经 网 络 的 理念 ,数据 丰富 , 计算 资源 充足 , 使 得 目前 世 
界 上 对 这 种 算法 的 训练 变 得 更 加 容易 、 深 度 学 习 模 型 的 性 能 得 到 不 断 提升 。 对 于 这 一 点 , 我 们 可 以 
在 图 2-1 中 看 到 更 好 的 表示 。 


数据 数量 


图 2-1 基于 神经 网 络 的 深度 学 习 算法 和 传统 学 习 算法 效果 图 
这 里 深度 学 习 中 的 “深度 ”是 指 人 工 神经 网 络 结构 的 深度 ， 而 “学 习 ” 是 指 通过 人 工 神 经 网 络 
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本 身 进 行 学 习 。 图 2-2 给 出 了 深度 和 浅 度 网 络 之 间 差 异 的 展示 ， 以 及 为 什么 “深度 学 习 ” 会 受到 大 
家 的 热 捧 。 


--»>Ái(0, x) -->Á(0, X) 


深度 网 络 浅 度 网 络 
图 2-2 深度 和 浅 度 网 络 示意 图 


通过 利用 深度 神经 网 络 ， 我 们 能 够 从 未 标记 和 非 结构 化 数据 (如 图 像 (像素 数据 )、 文 档 ( 文 
本 数据 或 文件 (音频 、 视 频数 据 ) ) 中 寻找 出 潜在 的 结构 情况 〈 或 特征 学 习 ) 。 实 际 上 ， 虽 然 深 
度 学 习 中 的 人 工 神经 网 络 和 模型 在 本 质 上 具有 相似 的 结构 , 但 这 并 不 意味 着 两 个 人 工 神经 网 络 的 组 
合 在 利用 数据 进行 训练 时 ， 我 们 获得 的 表现 〈 或 效果 ) 与 深度 神经 网 络 就 相似 。 其 中 一 个 重要 的 原 
因 是 ， 深 度 神 经 网 络 与 普通 人 工 神经 网 络 之 间 所 使 用 的 反 向 传播 方式 不 同 。 

接 下 来 ， 我 们 先 介绍 一 下 深度 学 习 的 演变 过 程 ， 然 后 从 神经 网 络 开始 详细 解读 。 


22 ”深度 学 习 演变 简 述 


2.2.1 深度 学 习 早 期 


1943 年 ， 心 理学 家 麦 卡 洛克 和 数学 逻辑 学 家 皮 兹 发 表 了 论文 《神经 活动 中 内 在 思想 的 逻辑 演 
算 》， 提 出 了 MP 模型 。MP 模型 是 模仿 神经 元 的 结构 和 工作 原理 构建 的 一 个 基于 神经 网 络 的 数学 
模型 ， 本 质 上 是 一 种 “模拟 人 类 大 脑 ”的 神经 元 模型 。MP 模型 作为 人 工 神经 网 络 的 起 源 ， 开 创 了 
人 工 神经 网 络 的 新 时 代 ， 也 黄 定 了 神经 网 络 模型 的 基础 。 

1949 年 ， 加 拿 大 著名 心理 学 家 唐纳德 。 海 布 在 《行为 的 组 织 》 中 提出 了 一 种 基于 无 监督 学 习 
的 规则 一 一 海 布 学 习 规 则 (Hebb Rule) 。 海 布 学 习 规则 模仿 人 类 认 知 世界 的 过 程 建 立 一 种 “网 络 
模型 ”， 该 网 络 模型 针对 训练 数据 集 进行 大 量 的 训练 并 提取 训练 集 的 统计 特征 ， 然 后 按照 样本 的 相 
似 程度 进行 分 类 ,把 相互 之 间 联 系 密切 的 样本 分 为 一 类 ， 这样 就 把 样本 分 成 了 若干 类 。 海 布 学 习 规 
则 与 “条 件 反 射 ” 机 理 一 致 ， 为 后 面 的 神经 网 络 学 习 算 法 黄 定 了 基础 ， 具 有 重大 的 历史 意义 。 

20 世纪 50 年 代 末 ， 在 MP 模型 和 海 布 学 习 规 则 的 研究 基础 上 ， 美 国 科学 家 罗 森 布 拉 特 发 现 了 
一 种 类 似 于 人 类 学 习 过 程 的 学 习 算法 一 一 感知 机 学 习 ， 并 于 1958 年 正式 提出 了 由 两 层 神经 元 组 成 
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的 神经 网 络 ， 称 之 为 “感知 器 ”。 感知 器 本 质 上 是 一 种 线性 模型 ， 可 以 对 输入 的 训练 集 数 据 进行 二 
分 类 , 且 能 够 在 训练 集中 自动 更 新 权重 值 。 感 知 器 的 提出 吸引 了 大 量 科学 家 对 人 工 神经 网 络 研究 的 
兴趣 ， 对 神经 网 络 的 发 展 具有 里 程 碑 式 的 意义 。 

随 着 研究 的 深入 ， 在 1960 年 ， “AI 之 父 ” 马 文 。 明 斯 基 和 LOGO 语言 的 创始 人 西蒙 。 派 珀 
特 共同 编写 了 一 本 图 书 《 感 知 器 》， 在 书 中 他 们 证 明了 单 层 感知 器 无 法 解决 线性 不 可 分 问题 (例如 
异 或 问题 ) 。 由 于 这 个 致命 的 缺陷 以 及 没有 及 时 推广 感知 器 到 多 层 神经 网 络 中 , 在 20 世纪 70 年 代 
人 工 神经 网 络 进入 了 第 一 个 寒冬 期 ， 人 们 对 神经 网 络 的 研究 也 停滞 了 将 近 20 年 。 


2.2.2 深度 学 习 的 发 展 


1982 年 ， 著 名 物理 学 家 约翰 。 霍 普 菲 尔 德 发 明了 Hopfield 神经 网 络 。Hopfield 神经 网 络 是 一 
种 结合 存储 系统 和 二 元 系统 的 循环 神经 网 络 。Hopfield 网 络 也 可 以 模拟 人 类 的 记忆 ， 根 据 激活 函数 
的 选取 不 同 ， 有 连续 型 和 离散 型 两 种 类 型 ,分 别 用 于 优化 计算 和 联想 记忆 。 由 于 容易 陷入 局 部 最 小 
值 的 缺陷 ， 该 算法 并 未 在 当时 引起 很 大 的 龙 动 。 

直到 1986 年 ， 深 度 学 习 之 父 杰 弗 里 。 辛 顿 提出 了 一 种 适用 于 多 层 感知 器 的 反 向 传播 算法 一 一 
BP 算法 。BP 算法 在 传统 神经 网 络 正 向 传播 的 基础 上 ,增加 了 误差 的 反 向 传播 过 程 。 反 向 传播 过 程 
不 断 地 调整 神经 元 之 间 的 权重 值 和 阔 值 , 直到 输出 的 误差 减 小 到 允许 的 范围 之 内 , 或 达到 预先 设 定 
的 训练 次 数 为 止 。BP 算法 完美 地 解决 了 非 线性 分 类 问题 ， 让 人 工 神经 网 络 再 次 引起 了 人 们 广泛 的 
关注 。 

20 世纪 80 年 代 计算 机 的 硬件 水 平 有 限 ， 比 如 运算 能 力 跟 不 上 ， 导 致 当 神经 网 络 的 规模 增 大 时 
使 用 BP 算法 出 现 “ 梯 度 消 失 ” 的 问题 。 这 使 得 BP 算法 的 发 展 受到 了 很 大 的 限制 。 再 加 上 20 世纪 
90 年 代 中 期 ， 以 SVM 为 代表 的 其 他 浅 层 机 器 学 习 算法 的 提出 ， 及 其 在 分 类 、 回 归 问 题 上 均 取 得 了 
很 好 的 效果 ， 其 原理 又 明显 不 同 于 神经 网 络 模型 ， 所 以 人 工 神经 网 络 的 发 展 再 次 进入 了 瓶颈 期 。 


© 


2.2.3 ”深度 学 习 的 爆发 


2006 年 ， 杰 弗 里 。 辛 顿 以 及 他 的 学 生 鲁 斯 兰 。 萨 拉 赫 丁 诺 夫 正式 提出 了 深度 学 习 的 概念 。 他 
们 在 世界 顶级 学 术 期 刊 《科学 》 发 表 的 一 篇 文章 中 详细 地 给 出 了 “梯度 消失 ”问题 的 解决 方案 一 一 
通过 无 监督 的 学 习 方法 逐 层 训练 算法 ,再 使 用 有 监督 的 反 向 传播 算法 进行 调 优 。 该 深度 学 习 方 法 的 
提出 , 立即 在 学 术 圈 引起 了 巨大 的 反响 ， 以 斯 坦 福 大 学 、 多 伦 多 大 学 为 代表 的 众多 世界 知名 高 校 纷 
纷 投入 巨大 的 人 力 、 财 力 进行 深度 学 习 领 域 的 相关 研究 ， 而 后 又 迅速 蔓延 到 工业 界 中 。 

2012 年 ， 在 著名 的 ImageNet 图 像 识别 大 赛 中 ， 杰 弗 里 。 辛 顿 领导 的 小 组 采用 深度 学 习 模型 
AlexNet 一 举 夺 冠 。AlexNet 采用 ReLU 激活 函数 ， 从 根本 上 解决 了 梯度 消失 问题 ， 并 采用 GPU 极 
大 地 提高 了 模型 的 运算 速度 。 同 年 ， 由 斯 坦 福 大 学 的 吴 恩 达 教授 和 世界 顶尖 计算 机 专家 Jeff Dean 
共同 主导 的 深度 神经 网 络 一 一 DNN 技术 在 图 像 识别 领域 取得 了 惊人 的 成 绩 , 在 ImageNet 评测 中 成 
功 地 把 错误 率 从 26% 降 低 到 了 15% 。 深 度 学习 算 法 在 世界 大 赛 中 脱颖而出 ， 再 一 次 吸引 了 学 术 界 
和 工业 界 对 深度 学 习 领 域 的 关注 。 
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随 着 深度 学 习 技术 的 不 断 进步 以 及 数据 处 理 能 力 的 不 断 提 升 ，2014 年 ，Facebook 基于 深度 学 
习 技 术 的 DeepFace 项 目 ， 在 人 脸 识 别 方面 的 准确 率 已 经 能 达到 97% 以 上 ， 跟 人 类 识别 的 准确 率 几 
乎 没有 差别 。 这 样 的 结果 也 再 一 次 证 明了 深度 学 习 算 法 在 图 像 识别 方面 的 一 骑 绝 侍 。 

2016 年 ， 随 着 谷歌 公司 基于 深度 学 习 开发 的 AlphaGo 以 4:1 的 比分 战胜 了 国际 项 尖 围 棋 高 手 
李 世 石 ， 深 度 学习 的 热度 一 时 无 两 。 后 来 ，AlphaGo 又 接连 和 众多 世界 级 围棋 高 手 过 招 ， 均 取得 了 
完胜 。 这 也 证 明了 在 围棋 界 ， 基 于 深度 学 习 技术 的 机 器 人 已 经 超越 了 人 类 。 

2017 年 ， 基 于 强化 学 习 算 法 的 AlphaGo 升级 版 AlphaGo Zero 横 空 出 世 。 其 采用 “从 零 开 始 ” 
“无 师 自 通 ”的 学 习 模式 ， 以 100:0 的 比分 轻而易举 打败 了 之 前 的 AlphaGo。 除 了 围棋 ， 它 还 精通 
际 象棋 等 其 他 棋 类 游戏 ， 可 以 说 是 真正 的 棋 类 “天 才 ”。 此 外 在 这 一 年 ， 深 度 学 习 的 相关 算法 在 
医疗 、 金 融 、 艺 术 、 无 人 驾驶 等 多 个 领域 均 取 得 了 显著 的 成 果 。 所 以 ， 也 有 专家 把 2017 年 看 作 是 
深度 学 习 甚至 是 人 工 智能 发 展 最 为 突飞猛进 的 一 年 。 


2.3 ”神经 网 络 介 绍 


神经 网 络 这 个 词 ， 其 实 是 一 个 非常 泛 的 概念 ， 有 两 个 类 别 : 生物 神经 网 络 和 人 工 神经 网 络 。 生 
物 神经 网 络 是 研究 生物 学 的 ， 一般 是 指 生 物 的 大 脑 神经 元 、 细 胞 、 触 点 等 组 成 的 网 络 ， 用 于 产生 生 
物 的 意识 、 帮 助 生物 进行 思考 和 行动 。 人 工 神 经 网 络 (Artificial Neural Networks, ANN) 有 时 也 称 
为 神经 网 络 (NN) 或 连接 模型 (Connection Model) ， 它 是 一 种 模仿 动物 神经 网 络 的 行为 特征 ， 进 
行 分 布 式 并 行 信息 处 理 的 算法 数学 模型 。 这 种 网 络 依靠 系统 的 复杂 程度 , 通过 调整 内 部 大 量 节点 之 
间 相 互 连 接 的 关系 ,从 而 达到 处 理 信息 的 目的 。 人 工 神经 网 络 是 一 种 应 用 类 似 于 大 脑 神经 突 触 联接 
的 结构 进行 信息 处 理 的 数学 模型 。 在 工程 与 学 术 界 也 常 直接 简称 为 “神经 网 络 ”或 类 神经 网 络 。 所 
以 ， 我 们 有 必要 先 简要 介绍 一 下 生物 神经 网 络 中 的 神经 元 模型 。 


神经 元 


对 于 神经 元 的 研究 由 来 已 入 ，1904 年 生物 学 家 就 已 经 知晓 了 神经 元 的 组 成 结构 。 一 个 神经 元 
通常 具有 多 个 树 突 ,主要 用 来 接受 传 入 信息 ; 而 轴 突 只 有 一 条 , 轴 突 尾 端 有 许多 轴 突 末梢 可 以 给 其 
他 多 个 神经 元 传递 信息 。 轴 突 末 梢 跟 其 他 神经 元 的 树 突 产 生 连 接 ， 从 而 传递 信号 。 这 个 连接 的 位 置 
在 生物 学 上 叫 作 “ 突 触 ”。 神 经 元 的 基本 功能 是 通过 接受 、 整 合 、 传 导 和 输出 信息 实现 信息 交换 。 
这 样 一 来 ， 神 经 元 按照 用 途 可 以 分 为 三 种 : 输入 神经 、 传 出 神经 和 连 体 神经 。 人 脑 中 的 神经 元 形状 
如 图 2-3 所 示 。 
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树 突 HR 


细胞 核 sex 


图 2-3 人 脑 中 的 神经 元 形状 图 


2.4 神经 网 络 的 基本 结构 


神经 网 络 背后 的 原理 源 自 于 一 些 基本 元 素 组 成 的 集合 , 如 人 工 神经 元 或 感知 器 (Perceptron ) , 
这 些 元 素 最 早 是 由 弗兰克 。 罗 森 布 拉 特 (Frank Rosenblatt) 在 20 世纪 50 年 代 开 发 的 。 它 们 有 几 个 
二 进 制 输入 〈0 或 1) ，xux,…xa， 如 果 这 些 输入 的 总 和 大 于 激活 电位 〈 等 同 于 偏差 ) ， 则 产生 单 
个 二 进 制 的 输出 。 每 当 超过 激活 电位 时 ， 神 经 元 被 称 为 “激活 ”， 并 表现 为 一 个 阶 跃 函数 Cstep 
function) 。 发 射 信号 的 神经 元 将 信号 传递 给 与 其 树 突 相 连 的 其 他 神经 元 ， 如 果 超 过 激活 电位 ， 树 
突 就 会 激活 信号 , 从 而 产生 级 联 效应 , 如 图 2-4 所 示 , 其 实 这 也 是 早期 的 单 层 神经 网 络 (感知 器 ) 。 
X 


X» output 


Xs 
图 2-4 神经 元 样 例 示 意图 
由 于 并 非 所 有 输入 都 具有 相同 的 重要 性 ， 因 此 每 个 输入 xs 都 被 分 配 了 自己 的 权重 值 ， 人 允许 模 


型 为 某 些 输入 指定 更 高 的 权重 值 。 因 此 ， 若 加 权 和 大 于 激活 电位 或 偏差 ， 则 输出 为 1， 即 可 以 给 出 
输出 的 结果 ， 具 体 如 下 : 


output = Y,j wjxj + Bias (2.D 


实际 上 ， 阶 跃 函数 的 跳跃 性 质 使 得 它 具 有 不 连续 、 不 光滑 、 不 可 导 等 特点 ， 如 果 利用 这 种 简单 
形式 的 函数 ， 我 们 很 难 达到 理想 的 效果 ， 如 图 2-5 所 示 。 因 此 ， 在 实际 应 用 中 ， 我 们 通常 不 会 直接 
采用 阶 跃 函 数 来 作为 激活 函数 ,我 们 需要 对 其 进行 两 处 修改 ， 以 使 其 表现 得 更 可 预测 ， 即 权重 值 和 
偏差 的 微小 变化 仅 导 致 输出 的 微小 变化 ， 这 两 处 具体 如 下 : 
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step function 


图 2-5 ” 阶 跃 函数 示意 图 


COD 输入 可 以 取 0~1 之 间 的 任何 值 ， 而 不 是 二 进 制 (0 或 1) ; 
(2) 为 了 使 输出 在 给 定 的 输入 xu xz,.…,xw、 权 重 值 w wa... ww 和 偏差 下 更 平稳 地 工作 ， 


我 们 使 用 以 下 Sigmoid 函数 〈 见 图 2-6) : 


化 可 


oxi wi) = (22) 


1 
1texp(-Yjxjw;-b) 


图 2-6 Sigmoid 函数 
指数 函数 RO) 的 平滑 度 意味 着 权重 值 和 偏差 的 微小 变化 将 引起 神经 元 输出 的 微小 变化 〈 变 
[能 是 权重 值 和 偏差 变化 的 线性 函数 ) 。 
除了 通常 的 Sigmoid 函数 外 ,更 常用 的 其 他 非 线性 函数 还 包括 以 下 几 个 函数 , 它们 中 的 每 一 个 


都 可 


能 具有 类 似 或 不 同 的 输出 范围 ， 因 此 可 以 相应 地 使 用 。 
ReLU: 线性 整流 函数 (Rectified Linear Unit, ReLU) ， 又 称 修 正 线性 单元 ， 是 一 种 人 工 神经 


网 络 中 常用 的 激活 函数 CActivation Function) ， 通 常 指 代 以 斜坡 函数 及 其 变种 为 代表 的 非 线性 函 


数 。 


这 将 使 激活 保持 在 0 位 ， 使 用 以 下 函数 计算 : 
Zj = fj(xj) = max(0,x;) (2:35 


其 中 , EBRE, zj 是 经 过 ReLU 函数 ,了 处理 过 的 相应 输出 值 。ReLU 函数 的 图 形 如 图 


2-7 所 示 ， 对 于 所 有 x 三 0， 函 数值 为 0; 对 于 所 有 x> 0， 函 数 线性 斜率 为 1 。 
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图 2-7 ReLU 函数 


ReLU 经 常 面临 着 “死亡 ”的 问题 ， 特 别 是 当 学 习 率 被 设置 为 更 高 的 数值 时 ， 因 为 这 会 触发 不 
允许 激活 特定 神经 元 的 权重 值 更 新 ， 从 而 使 该 神经 元 的 梯度 永远 为 零 。 ReLU 提供 的 另 一 个 风险 
是 激活 函数 的 爆炸 ， 因 为 输入 值 x 本 身 就 是 输出 。ReLU 也 存在 不 少 优点 ， 例 如 在 x 低 于 0 的 情况 
下 引入 稀 琉 性 ， 引 起 稀疏 表示 ， 并 且 当 ReLU 不 变 时 返回 梯度 ， 它 会 导致 更 快 的 学 习 ， 伴 随 着 梯度 
消失 的 可 能 性 会 降低 。 

下 面 给 出 其 他 几 个 常见 的 函数 ， 这 些 函 数 能 够 使 我 们 很 容易 对 梯度 下 降 进 行 训练 ， 具 体 如 下 : 


€ LReLU(Leaky ReLU): 通过 为 x 小 于 0 的 值 引入 略微 碱 小 的 儿 率 ( 约 0.01 ) 来 减轻 ReLU 
死亡 的 问题 ，LReLU 确实 提供 了 很 多 成 功 的 场景 ， 尽 管 有 时 也 会 出 错 。 

© ELU (指数 线性 单位 ) : 它们 提供 负 值 ， 通 过 将 附近 的 梯度 移动 到 单位 自然 梯度 ， 将 平 
均 单 位 激活 推 至 接近 零 ， 从 而 加 快 学 习 过 程 。 有 关 ELU 更 详细 的 解释 ， 请 参阅 
Djork-ArnéClevert 的 原始 论文 ， 网 址 为 https://arxiv.org/abs/1511.07289。 

€  softmax: 也 被 称 为 归 一 化 指数 函数 ， 它 转换 (0,1) 范围 内 的 一 组 给 定 实 值 ， 使 得 组 合 和 
J) 1l. softmax 函数 表示 如 下 : 

a(2)j = et /Pe (2.4) 
这 里 ; j-12...,K. 


与 哺乳 动物 大 脑 一 样 ， 单 个 神经 元 也 是 分 层 组 织 的 ， 在 一 层 内 与 下 一 层 相 连 ， 形 成 一 个 ANN 
或 者 说 人 工 神经 网 络 或 多 层 感知 器 (MLP) 。 这 样 ， 整 个 网 络 的 复杂 性 就 是 基于 这 些 元 素 和 连接 
相 邻 层 的 数量 情况 。 

输入 和 输出 之 间 的 层 称 为 隐藏 层 ， 层 之 间 的 连接 密度 和 类 型 是 结构 (也 叫 配 置 )。 例如， 一 个 
完全 连接 的 结构 将 L 层 的 所 有 神经 元 连接 到 LH 层 的 所 有 神经 元 。 若 要 具有 更 明显 的 结构 ， 我 们 
只 能 将 一 个 局 部 邻 域 连接 到 下 一 层 。 图 2-8 显示 了 两 个 具有 密集 连接 的 隐藏 层 。 
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输出 层 


2-8 神经 网 络 架 构 示 例 图 


2.5 ”两 层 神经 网 络 (多 层 感知 器 ) 


2.5.4 HË 


两 层 神经 网 络 是 本 文 的 重点 , 因为 正 是 从 两 层 结构 为 起 点 神经 网 络 才 开始 了 大 范围 的 推广 与 使 
用 。 

大 家 知道 , 单 层 神经 网 络 无 法 解决 异 或 问题 , 但 是 当 增 加 一 个 计算 层 以 后 ,两 层 神经 网 络 不 仅 
可 以 解决 异 或 问题 , 而且 具 有 非常 好 的 非 线 性 分 类 效果 。 不 过 , 两 层 神经 网 络 的 计算 则 是 一 个 问题 ， 
因为 没有 一 个 较 好 的 解法 。 

1986 年 ，Rumelhar 和 Hinton 等 人 提出 了 反 向 传播 (Backpropagation, BP) 算法 ， 解 决 了 两 层 
神经 网 络 所 需要 的 复杂 计算 量 的 问题 ， 从 而 带动 了 业界 使 用 两 层 神经 网 络 研究 的 热潮 。 目 前 ,大 量 
讲解 神经 网 络 的 教材 之 内 容 基本 都 是 以 介绍 两 层 〈 带 一 个 隐藏 层 ) 神经 网 络 为 重点 。 

当时 的 Hinton 还 很 年 轻 ，30 年 以 后 ， 正 是 他 重新 定义 了 神经 网 络 ， 带 来 了 神经 网 络 复苏 的 又 
一 波 发 展 浪潮 。 


2.5.2 ”两 层 神经 网 络 结构 


两 层 神经 网 络 除了 包含 一 个 输入 层 和 一 个 输出 层 以 外 ,还 增加 了 一 个 中 间 层 。 此 时 ， 中 间 层 和 
输出 层 都 是 计算 层 。 我 们 扩展 上 节 的 单 层 神经 网 络 ， 在 右边 新 加 一 个 层次 。 

现在 ， 我 们 的 权重 值 矩 阵 增 加 到 了 两 个 ， 我 们 用 上 标 来 区 分 不 同 层次 之 间 的 变量 。 

例如 ，ay 代 表 第 y 层 中 的 第 x 个 节点 。z1,z2 变 成 了 a?,a2。 图 2-9 给 出 了 a?,a3 的 计算 公式 。 
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中 间 层 的 计算 公式 > 
di— f( Gar Wi *di Wi tdi Wi) 


2— 1 1 1 1 1 1 
2=f (ai wisst ai wioa*ai wi) 


图 2-9 ”两 层 神经 网 络 ( 中 间 层 计算 ) 
计算 最 终 输 出 z 的 方式 是 利用 了 中 间 层 的 a8, 和 第 二 个 权 值 矩 阵 计算 得 到 的 ,如 图 2-10 所 示 。 


输出 层 的 计算 公式 > 


Zz-f(ai- wii *arwüa) 
图 2-10 ”两 层 神经 网 络 〈 输 出 层 计 算 ) 
假设 我 们 的 预测 目标 是 一 个 向 量 ， 那 么 与 前 面 类 似 ， 只 需要 在 “输出 层 ”再 增加 节点 即 可 。 


2.6 多 层 神 经 网 络 (深度 学 习 ) 
2.61 简 述 
人 工 神经 网 络 在 被 人 据 弃 的 10 年 中 ， 有 几 个 学 者 仍然 在 坚持 研究 ， 其 中 的 典型 代表 就 是 加 全 


大 多 伦 多 大 学 的 Geoffery Hinton 教授 。 
2006 年 ，Hinton 在 《Scierce》 和 相关 期 刊 上 发 表 了 论文 ， 首 次 提出 了 “深度 信念 网 络 ” 的 概 
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念 。 与 传统 的 训练 方式 不 同 ，“ 深 度 信念 网 络 ” 有 一 个 “ 预 训 练 ” CPre-Training) 的 过 程 ， 可 以 
方便 地 让 神经 网 络 中 的 权重 值 找到 一 个 接近 最 优 解 的 值 ， 之 后 再 使 用 “微调 ” (Fine-Tuning) 技术 
来 对 整个 网 络 进行 优化 训练 。 这 两 个 技术 的 运用 大 幅度 减少 了 训练 多 层 神 经 网 络 的 时 间 。 他 给 多 层 
神经 网 络 相 关 的 学 习 方 法 赋予 了 一 个 新 名 词 一 一 “深度 学 习 ”。 

很 快 ， 深 度 学 习 在 语音 识别 领域 轩 露 头角 。 接 着 ，2012 年 ， 深 度 学 习 技 术 又 在 图 像 识别 领域 
大 展 拳脚 。Hinton 与 他 的 学 生 在 ImageNet 竞赛 中 用 多 层 的 卷 积 神经 网 络 成 功 地 对 包含 一 千 类 别 的 
一 百 万 张 图 片 进行 了 训练 ， 取 得 了 分 类 错误 率 15% 的 好 成 绩 ， 这 个 成 绩 比 第 二 名 高 了 近 11 个 百 分 
点 ， 这 充分 证 明了 多 层 神 经 网 络 识 别 效果 的 优越 性 。 

在 这 之 后 ， 关 于 深度 神经 网 络 的 研究 与 应 用 不 断 涌现 。 

关于 CNN (Conventional Neural Network, 卷 积 神经 网 络 ) + RNN (Recurrent Neural Network, 
循环 神经 网 络 ) 及 其 变 体 LSTM 的 架构 ， 我 们 会 在 后 面 的 章节 中 进行 单独 解读 ， 这 里 不 做 过 多 阔 
R. 


2.6.2 ”多 层 神 经 网 络 结构 


我 们 延续 两 层 神经 网 络 的 方式 来 设计 一 个 多 层 神经 网 络 。 
在 两 层 神经 网 络 的 输出 层 后 面 ， 继 续 添加 层次 。 原 来 的 输出 层 变 成 中 间 层 ， 新 加 的 层次 成 为 新 
的 输出 层 ， 可 以 得 到 图 2-11. 


图 2-11 多 层 神 经 网 络 


依照 这 样 的 方式 不 断 添加 , 我 们 可 以 得 到 更 多 层 的 多 层 神经 网 络 。 公 式 推 导 的 话 其 实 跟 两 层 神 
经 网 络 类 似 ， 使 用 矩阵 运算 的 话 就 仅仅 是 加 一 个 公式 而 已 。 


2.7 编码 器 -解码 器 网 络 


编码 器 -解码 器 (Encoder-Decoder) 网 络 使 用 一 个 网 络 来 创建 输入 的 内 部 表示 ， 或 者 对 其 进行 
“编码 ”， 并 且 该 表示 用 作 另 一 个 网 络 的 输入 以 产生 输出 。 这 有 助 于 超越 输入 的 分 类 。 最 终 输 出 可 
以 是 相同 的 模 态 ， 即 语言 翻译 ， 或 基于 概念 的 不 同 模 态 ， 例 如 图 像 的 文本 标记 。 作 为 参考 ， 可 以 阅 
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读 谷 歌 团队 发 表 的 论文 “使 用 神经 网 络 进行 序列 学 习 ” — Chttps://papers.nips.cc/paper/5346-sequence 
-to-sequence-learning-with-neural-networks.pdf) . 

编码 器 -解码 器 网 络 其 实 可 以 看 作 一 个 解决 问题 的 框架 ， 主 要 解决 seq2seq 类 问题 ，Sequence 
(序列 ) 在 这 里 可 以 理解 为 一 个 字符 串 序 列 ， 当 我 们 在 给 定 一 个 字符 串 序 列 后 , 希望 得 到 与 之 对 应 
的 另 一 个 字符 串 序列 ， 比 如 问答 系统 、 翻 译 系统 。 

编码 器 -解码 器 网 络 的 流程 可 以 理解 为 “编码 一 存储 一 解码 ”这 一 流程 ， 可 以 用 人 脑 流程 来 类 
比 。 我 们 先 看 到 源 Sequence， 将 其 读 一 遍 ， 然 后 在 我 们 大 脑 当 中 就 记 住 了 这 个 源 Sequence， 并且 
存在 大 脑 的 某 一 个 位 置 上 ， 形 成 我 们 自己 的 记忆 (对 应 后 面 的 Context) ， 然 后 我 们 再 经 过 思考 ， 
将 这 个 大 脑 里 的 东西 转变 成 输出 ， 写 下 来 。 我 们 大 脑 读 入 的 过 程 叫 作 编码 器 (Encoder) ， 即 将 输 
入 的 东西 变 成 我 们 自己 的 记忆 ， 放 在 大 脑 当 中 ， 而 这 个 记忆 可 以 叫 作 Context， 然 后 我 们 再 根据 这 
个 Context 转化 成 答案 写 下 来 ， 这 个 写 的 过 程 叫 作 解 码 器 (Decoder) 。 

整个 模型 可 以 用 图 2-12 表示 。 


Encoder m 语义 编码 c } 


dddo 


图 2-12 编码 器 -解码 器 (Encoder-Decoder) 网 络 架构 


2.8 随机 梯度 下 降 


几乎 所 有 优化 问题 的 解决 方案 都 是 梯度 下 降 算法 。 它 是 一 种 迭代 算法 , 通过 随后 更 新 函数 的 参 
数 来 最 小 化 损失 函数 。 

从 图 2-13 中 可 以 看 到 ， 我 们 首先 把 函数 想象 成 一 种 山谷 ， 想 象 一 个 球 滚 下 山谷 斜坡 的 情形 。 
日 常生 活 经 验 告诉 我 们 ， 球 最 终 会 滚 到 谷底 。 也 许 我 们 可 以 用 这 个 方法 求 出 损失 函数 的 最 小 值 。 

我 们 这 里 使 用 的 函数 依赖 于 两 个 变量 : vl 和 v2。 这 可 能 是 显而易见 的 ， 因 为 我 们 的 损失 函数 
看 起 来 像 前 面 的 那个 。 为 了 达到 这 样 一 个 平滑 的 损失 函数 ， 我 们 取 二 次 损失 : 


(y e jyBredictéd a 
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图 2-13 球 滚 下 斜坡 示意 图 


同样 , 我 们 应 该 注意 到 二 次 损失 函数 只 是 一 种 方法 ,其 实 还 有 许多 其 他 方法 来 定义 损失 。 但 不 
管 选择 哪 种 方法 ， 最 终 ， 我 们 选择 不 同 损失 函数 的 目的 是 为 了 得 到 : 

CD 对 权重 值 的 平滑 偏 导 数 。 

(2) 一 个 良好 的 凸 曲线 ， 可 以 达到 全 局 最 小 值 。 然 而 ， 在 寻找 全 局 最 小 值 时 ， 还 有 许多 其 他 
因素 也 在 发 挥 作 用 。 

我 们 随机 选择 一 个 〈 假 想 的 ) 球 的 起 点 ， 然 后 模拟 球 在 向 下 滚动 到 山谷 底部 时 的 运动 。 与 之 类 
比 的 情景 中 , 假设 我 们 初始 化 网 络 的 权重 值 , 或 者 一 般 来 说 , 在 曲线 上 的 某 个 任意 点 上 初始 化 函数 
的 参数 〈 就 像 在 斜坡 的 任何 一 点 上 放 一 个 球 ) ， 然 后 检查 附近 的 斜率 〈 导 数 ) 。 
我 们 知道 ， 由 于 重力 的 作用 ， 球 会 朝 着 最 大 坡度 的 方向 下 落 。 同 样 ， 在 该 点 沿 导数 方向 移动 权 
重 值 ， 并 根据 以 下 规则 更 新 权重 值 : 


设 JQw) = 成 本 作为 权重 值 的 函数 , w= 网 络 参数 (v1 和 v2), wi= 初 始 权重 值 集 ( 随 机 初始 化 ) 。 


Wupdate 三 Wi 一 1d] (w)/dw 


这 里 ，dJ(w)/dw 为 权重 值 w 对 .Jow) 的 偏 导数 ，7 是 学 习 率 (Learning Rate) 。 

学 习 率 更 多 的 是 一 个 超 参数 , 这 里 虽然 没有 固定 的 方法 来 找到 最 合适 的 学 习 率 , 但 是 我 们 总 是 
可 以 通过 批量 损失 来 找到 它 。 

一 种 方法 是 看 到 损失 并 分 析 损 失 的 模式 。 一 般 来 说 , 较 差 的 学 习 率 会 导致 小 批量 的 不 稳定 损失 。 
È GRR) 可 以 递归 地 上 升 和 下 降 ， 而 不 需要 稳定 。 

图 2-14 给 出 了 一 个 更 直观 的 解释 。 
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i LearningRate 1 Learning Rate 


Weights 
图 2-14 ”小 型 和 大 型 学 习 率 影响 的 示意 图 

在 图 2-14 中 ， 有 两 种 情况 : 情景 1， 小 的 学 习 速 率 ; 情景 2， 大 的 学 习 速率 。 我 们 的 目标 是 为 
了 达到 图 2-14 中 的 最 小 值 ， 所 以 必须 达到 谷底 (就 像 图 2-13 中 球 的 情况 那样 ) 。 学 习 率 则 与 球 滚 
下 山 时 的 跳跃 幅度 有 关 。 

首先 考虑 情景 1 (图 2-14 中 的 左 侧 部 分 ) ， 我 们 在 其 中 进行 小 的 跳跃 ， 逐 渐 继续 向 下 滚动 ， 
慢 慢 地 ， 最终 达到 最 小 值 ， 而 球 有 可 能 卡 在 路 上 的 一 些小 缝隙 中 , 并 且 由 于 无 法 进行 大 跳跃 而 无 法 
逃脱 它 。 

在 情景 2〈 图 的 右 侧 部 分 ) 中 ， 与 曲线 的 斜率 相 比 ， 学 习 速 率 更 大 。 这 是 一 个 次 优 的 策略 ， 实 
际 上 可 能 将 我 们 从 山谷 中 驱逐 出 去 ,在 某 些 情况 下 ， 这 可 能 是 一 个 良好 的 开端 ， 可 以 摆脱 局 部 极 小 
的 范围 ， 但 如 果 我 们 跳 过 全 局 最 小 值 ， 就 会 让 人 对 其 感到 失望 。 

在 图 2-14 中 ， 我 们 实现 了 局 部 最 小 值 ， 但 这 只 是 一 个 例子 。 这 意味 着 权重 值 会 停留 在 局 部 最 
小 值 上 而 错过 全 局 最 小 值 。 梯 度 下 降 或 随机 梯度 下 降 不 保证 能 够 收敛 到 神经 网 络 的 全 局 最 小 值 ( 假 
设 隐 藏 单 元 不 是 线性 的 ) ， 因 为 损失 函数 是 非 凸 性 的 。 理 想 情 况 是 阶 跃 ( 步 长 ) 继续 变化 并 且 拥 有 
更 具 适 应 性 的 特点 ， 在 起 初时 可 以 略 高 ， 然 后 在 一 段 时 间 内 逐渐 减 小 ， 直 到 收敛 为 止 。 


29 反 向 传播 


理解 反 向 传播 (Backpropagation) 算法 可 能 需要 一 些 时 间 ， 读 者 也 可 以 跳 过 本 节 内 容 ， 因 为 很 
多 软件 库 都 具有 自动 区 分 和 执行 整个 训练 过 程 的 能 力 。 但是, 理解 这 个 算法 肯定 会 让 你 深入 了 解 与 
深度 学 习 相关 的 问题 (学 习 问 题 、 缓 慢 学 习 、 梯 度 爆炸 、 梯 度 下 降 》。 

让 我 们 首先 看 一 张 典型 的 神经 网 络 结构 图 ， 如 图 2-15 所 示 。 
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2-15 ”神经 网 络 结构 图 


图 2-15 是 一 个 包含 了 输入 层 L1、 隐藏 层 L2 和 输出 层 L3 的 简单 神经 网 络 , 它 的 处 理 流程 为 根 
据 输 入 层 的 input 以 及 相应 的 权重 值 和 配置 《图 中 黑色 带 箭头 的 边 ) ， 通 过 隐藏 层 的 加 工 ， 最 终 将 
结果 映射 到 输出 层 得 到 结果 的 输出 。 模 型 可 以 抽象 表示 为 y = f Qe) » x,y 分 别 表示 输入 和 输出 向 量 。 

根据 神经 网 络 的 处 理 流程 ， 我 们 如 果 要 得 到 输出 y， 就 必须 知道 图 2-15 中 每 条 边 的 参数 值 ， 这 
也 是 神经 网 络 中 最 重要 的 部 分 ,在 神经 网 络 中 是 通过 和 迭 代 的 方法 来 计算 这 些 参数 的 , 具体 来 讲 就 是 ， 
首先 初始 化 这 些 参 数 ， 通 过 神经 网 络 的 前 向 传导 过 程 来 计算 得 到 输出 y， 但 这 些 值 与 真实 值 存在 着 
误差 ,我 们 假设 累计 误差 函数 为 err(x)， 然 后 利用 梯度 方法 极 小 化 err(x) 来 更 新 参数 ， 直 至 误差 值 
达到 符合 要 求 而 停止 计算 。 在 更 新 参数 这 一 过 程 中 ， 我 们 就 用 到 了 著名 的 反 向 传播 算法 。 

为 了 更 好 地 去 说 明神 经 网 络 的 传播 算法 ， 我 们 这 里 取 图 2-15 中 的 一 条 路 径 来 做 说 明 ， 但 这 不 
失 一 般 性 ， 假 设 路 径 如 图 2-16 所 示 。 


A Jo 
Q0 0 
NS NS 
图 2-16 神经 网 络 传播 路 径 示例 


图 2-16 中 的 边 表 示 偏 导数 ， 如 & = (3 Y/3 X). 
想 要 知道 输入 K 对 输出 Z 的 影响 ， 我 们 可 以 用 偏 导数 (0Z/0X) = (92Z/90Y): (90Y/0X)， 即 : 


(0Z/0 X) = a + ae t aC + BS + Be - BC yó - yet yt (2.55 


我 们 如 果 直 接 使 用 链 式 法 则 进行 求 导 就 会 遇 到 一 个 问题 ， 当 路 径 数 量 增加 时 ， 式 (L5) 中 的 
子 项 目 数 会 呈 指 数 增长 ， 所 以 这 时 我 们 需要 把 上 式 右 侧 部 分 进行 合并 , 合并 后 ， 我 们 只 需要 进行 一 
次 乘法 就 可 以 获得 所 需要 的 结果 ， 这 样 大 幅度 提升 了 模型 的 运算 效率 ， 合 并 后 的 式 子 如 下 : 


(8Z/8X) - (a - B-- y(84 e) (2.6) 


接 下 来 ， 我 们 解决 式 (2.60 的 实现 问题 。 根 据 计 算 方 向 的 不 同 ， 可 以 分 为 正 向 微分 与 反 向 微 
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分 。 我 们 先 看 针对 图 2-16 的 正 向 微分 算法 ， 如 图 2-17 所 示 。 


Forward-Mode Differentiation (2x) 


[2] 0 
fh ^. 
Do [X a.ge.-Roc-| 3x” 

ox t (a - 8 +y - e C) 


NA 


图 2-17 正 向 微分 算法 


可 以 看 到 , 正 向 微分 算法 根据 路 径 的 传播 方向 , 依次 计算 路 径 中 的 各 结 点 对 输入 XX 的 偏 导数 ， 
结果 中 保留 了 输入 对 各 结 点 的 影响 。 
下 面 ， 我 们 看 一 下 反 向 微分 算法 〈 见 图 2-18) 。 


Reverse-Mode Differentiation [22] 
——— 


ÊN 
DZ € DZ 
—o—|[I- o EN 
o Br) e c) pcs C ðZ 


图 2-18 反 向 微分 算法 


可 以 看 到 ， 该 算法 从 后 向 前 进行 计算 ， 结 果 中 保留 了 路 径 中 各 结 点 对 输出 的 影响 。 

这 里 就 有 一 个 问题 了 ， 既 然 正 向 反 向 都 可 以 实现 式 (2.6) 的 计算 ， 那 么 我 们 应 该 选择 哪个 算 
法 来 实现 呢 ? 答案 是 反 向 微分 算法 ， 理 由 如 下 : 

首先 我 们 看 一 个 计算 式 子 e = (a b) * (b 十 1) 的 图 模型 ( 见 图 2-19〉。 


图 2-19 图 模型 计算 示例 


其 中 ，c,d 表示 中 间 结 果 ， 边 的 方向 表示 一 个 结 点 是 另 一 个 结 点 的 输入 。 
假设 输入 变量 a=2、b=1， 图 2-19 中 各 结 点 的 偏 导 计算 结果 如 图 2-20 所 示 。 
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图 2-20 利用 正 向 微分 算法 得 到 各 结 点 的 偏 导 计 算 结果 
利用 正 向 微分 算法 ， 我 们 得 到 关于 变量 b 的 偏 导 计算 结果 如 图 2-21 所 示 。 


图 2-21 利用 正 向 微分 算法 得 到 变量 b 的 偏 导 计算 结果 
利用 反 向 微分 算法 ， 我 们 得 到 的 偏 导 计算 结果 如 图 2-22 所 示 。 


图 2-22 利用 反 向 微分 算法 得 到 的 偏 导 计算 结果 
由 此 可 见 , 反 向 微分 算法 保留 了 所 有 变量 (包括 中 间 变 量 ) 对 结果 e 的 影响 。 若 e 为 误差 函数 ， 


则 对 图 进行 一 次 计算 ,可 以 得 出 所 有 结 点 对 e 的 影响 ,也 就 是 梯度 值 ， 下 一 步 就 可 以 利用 这 些 梯度 


第 2 章 深度 学 习 基 础 | 31 


值 来 更 新 边 的 权重 值 了 ; 而 正 向 微分 算法 得 到 的 结果 是 只 保留 了 一 个 输入 变量 对 误差 e 的 影响 , 显 
然 ， 想 要 获得 多 个 变量 对 e 的 影响 ， 我 们 就 需要 进行 多 次 计算 。 所 以 正 向 微分 算法 在 效率 上 明显 不 
如 反 向 微分 ， 这 也 是 我 们 选择 反 向 微分 算法 的 原因 。 


2410 ”总结 


TU 一 口 


TEASE, 我 们 首先 对 深度 学 习 的 理念 和 产生 的 历史 背景 做 了 说 明 , 认识 到 深度 学 习 在 人 工 智能 
当中 起 到 非常 重要 的 作用 。 

其 次 , 我 们 为 了 对 深度 学 习 的 内 部 原理 进行 解读 , 介绍 了 其 中 的 关键 部 分 一 一 神经 元 模型 。 通 
过 神经 元 模型 的 解读 ， 我 们 对 深度 学 习 的 基本 结构 有 了 认 知 。 

接着 ， 我 们 从 单 层 神经 网 络 、 多 层 神经 网 络 和 Encoder-Decoder 网 络 等 方面 对 于 深度 学 习 的 内 
部 网 络 结构 进行 了 更 深层 次 的 解析 , 对 其 内 部 逻辑 和 机 制 运行 情况 有 了 大 致 清晰 的 认 知 。 因 为 现实 
中 的 问题 一 般 都 非常 复杂 , 怎样 选择 一 个 高 效 的 优化 算法 便 成 为 我 们 着 重 关 注 的 方法 , 所 以 我 们 就 
介绍 了 随机 梯度 下 降 算 法 。 

最 后 ， 我 们 介绍 了 著名 的 反 向 传播 算法 (BP) ， 从 数学 的 角度 做 简要 解读 ， 使 我 们 认识 到 反 
向 传播 算法 的 魅力 所 在 ， 为 我 们 进一步 学 习 深 度 学 习 或 者 说 神经 网 络 模型 商定 了 良好 的 基础 。 

下 一 章 ， 我 们 将 介绍 本 书 所 使 用 的 技术 框架 : TensorFlow。 


TensorFlow 


在 本 章 中 ， 首 先 我 们 会 对 TensorFlow 的 概念 、 主 要 特征 、 安 装 及 其 三 个 组 成 部 分 进行 详细 解 
读 ， 梳 理 出 这 些 核心 概念 之 间 的 关系 。 其 次 ， 在 了 解 了 一 些 核心 概念 之 后 ， 我 们 会 对 TensorFlow 
的 工作 原理 进行 深度 解析 ， 将 TensorFlow 平台 的 “client 一 master 一 worker” 架 构 底 层 中 涉及 到 的 
内 在 逻辑 和 技术 路 径 进行 详细 解读 , 以 便 我 们 对 TensorFlow 框架 的 运行 机 制 有 更 多 的 认 知 。 接 着 ， 
我 们 会 利用 示例 对 TensorFlow 客户 端 进行 专门 解读 ,读者 会 在 示例 中 感受 TensorFlow 客户 端 内 在 
的 运行 情况 。 然 后 ， 我 们 会 对 TensorFlow 中 的 常见 元 素 逐 一 详解 ， 并 做 一 些 对 比分 析 。 最 后 ， 我 
们 对 TensorFlow 的 变量 作用 域 机 制 做 一 些 介绍 , 并 实现 一 个 三 层 神经 网 络 对 MNIST 数字 数据 集 进 
行 分 类 的 例子 。 

本 章 中 涉及 的 完整 代码 ， 请 查看 文件 夹 ch3 下 的 代码 文件 : 3_tensorflow_introduction.ipynb。 


3.1 TensorFlow 概念 解读 


由 于 深度 学 习 研 究 的 最 终 目的 是 为 了 解决 我 们 现实 世界 中 遇 到 的 困难 , 因此 在 学 术 界 不 断 探 索 
新 理念 、 新 模型 的 同时 ， 业 界 优秀 的 从 业 人 员 也 在 加 速 发 布 各 类 可 实现 的 技术 框架 ， 这样 深度 学 习 
框架 就 在 学 术 界 和 工业 界 的 相互 推动 下 得 以 迅速 发 展 起 来 .这 里 给 出 谷歌 公司 经 过 长 期 的 研究 和 尝 
试 ， 在 实践 的 基础 上 推出 的 目前 最 优秀 的 深度 学 习 框架 之 一 一 一 TensorFlow。TensorFlow 最 初 是 
由 谷歌 公司 的 大 脑 小 组 〈 隶 属于 谷歌 机 器 智能 研究 机 构 ) 的 研究 员 和 工程 师 们 开发 出 来 的 ， 是 一 个 采 
用 数据 流 图 (Data Flow Graph) 的 开源 分 布 式 数值 计算 框架 ， 主 要 用 于 减轻 实现 神经 网 络 细节 层面 的 
工作 量 (例如 , 计算 神经 网 络 权重 值 的 导数 ) 。TensorFlow 通过 使 用 统一 计算 设备 架构 (Compute Unified 
Device Architecture，CUDA) 对 数值 进行 有 效 计 算 ， 该 架构 是 由 NVIDIA 公司 引入 的 并 行 计 算 平 台 。 

TensorFlow 主要 是 由 计算 图 、 张 量 以 及 模型 会 话 三 个 部 分 组 成 的 。TensorFlow 中 的 计算 可 以 
表示 为 一 个 计算 图 (Computation Graph) ， 或 者 称 作 有 向 图 (Directed Graph) ， 图 中 的 每 一 个 数 
学 运算 或 操作 COperation ) 都 将 被 视 为 一 个 节点 (Node), 而 节点 与 节点 之 间 的 连接 被 称 为 边 (Edge)， 
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图 中 的 这 些 边 (Edge) 则 表示 在 节点 间 相 互 关联 的 流动 (Flow ) 的 多 维 数据 数组 , BIKE (Tensor) o 
这 个 计算 图 表述 了 数据 的 计算 流程 , 它 负责 维护 和 更 新 状态 , 我 们 可 以 对 计算 图 中 的 分 支 进行 条 件 
控制 或 循环 操作 。 简 单 说 , 我 们 可 以 用 张 量 表示 数据 , 用 计算 图 搭建 神经 网 络 , 用 会 话 执行 计算 图 ， 
在 优化 线 上 的 权重 值 〈 参 数 ) 后 得 到 我 们 的 模型 。 

这 里 ， 我 们 还 可 以 使 用 多 种 语言 对 计算 图 进行 设计 。TensorFlow 这 样 灵 活 的 架构 让 我 们 可 以 
在 多 种 平台 上 展开 计算 , 例如 台式 计算 机 中 的 一 个 或 多 个 CPU (或 GPU) 、 服 务 器 、 移动 设备 等 。 
作为 优秀 的 技术 架构 ，TensorFlow 在 机 器 学 习 方 面 解 决 了 以 下 几 个 核心 问题 : 


(1) 使 用 TensorFlow 工具 可 以 利用 很 简洁 的 语言 来 实现 各 类 复杂 算法 模型 ， 这 样 一 来 ,我 们 
就 可 以 从 日 常 中 极为 消耗 精力 的 编码 、 调 试 工作 中 解放 出 来 。 

(2) 由 于 TensorFlow 内 核 执行 系统 使 用 的 是 CH+， 因 此 在 执行 效率 方面 非常 高 效 。 

(3) TensorFlow 极 佳 的 分 层 架 构 使 得 模型 能 够 很 方便 地 运行 在 异 构 设备 之 上 。 

(4) TensorFlow 包含 了 TensorBoard 等 极 好 的 配套 工具 ， 且 第 三 方 社 区 也 在 不 断 贡 献 很 多 实 
用 的 辅助 工具 ， 例 如 TFLeam 等 ， 这 些 工 具 使 得 代码 变 得 更 加 简洁 、 数 据 处 理工 作 更 便捷 。 


如 果 读 者 感 兴趣 ， 可 以 参考 下 面 的 网 址 以 查阅 关于 TensorFlow 方面 的 内 容 。 


TensorFlow 官网 : tensorflow.google.cn. 

TensorFlow 的 应 用 程序 编程 接口 ( API) : tensorflow.google.cn/api docs/python. 
GitHub 网 址 : github.convtensorflow. 

模型 仓库 : github.com/tensorflow/models. 


3.2 TensorFlow 主要 特征 


3.2.1 ”自动 求 微分 


基于 梯度 的 机 器 学 习 算 法 会 受益 于 TensorFlow 自动 求 微 分 的 能 力 。 在 使 用 TensorFlow 时 , 我 
们 只 需要 定义 预测 模型 的 结构 ， 将 这 个 结构 和 目标 函数 (Objective Function) 结合 在 一 起 ， 并 添加 
数据 ，TensorFlow 将 自动 为 我 们 计算 相关 的 微分 导数 。 计 算 某 个 变量 相对 于 其 他 变量 的 导数 仅仅 
是 通过 扩展 你 的 计算 图 来 完成 的 ， 所 以 我 们 可 以 一 直 很 清晰 地 看 到 系统 中 究竟 在 发 生 什么 。 


322 多 语言 支持 


TensorFlow 有 一 个 合理 的 C++ 使 用 界面 ， 也 有 一 个 易 用 的 Python 使 用 界面 来 构建 和 执行 我 们 
的 计算 图 (Computation Graph) 。 我 们 可 以 直接 编写 Python/C++ 程 序 ， 也 可 以 用 交互 式 的 iPython 
界面 来 调用 TensorFlow 以 尝试 一 些 想法 , 它 可 以 帮 我 们 将 笔记 、 代码 、 可 视 化 等 有 条 理 地 归 置 好 。 
当然 这 仅仅 是 一 个 起 点 ， 它 同时 也 在 促使 我 们 创造 自己 最 喜欢 的 语言 界面 ， 比 如 Go、Java、Lua、 
JavaScript、R 等 。 
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3.23 高度 的 灵活 性 


TensorFlow 不 是 一 个 严格 意义 上 的 “神经 网 络 ” 库 。 如 果 我 们 能 够 将 计算 表示 为 一 个 数据 流 
图 ， 那 么 就 可 以 使 用 TensorFlow 来 构建 图 和 描写 驱动 计算 的 内 部 循环 。TensorFlow 提供 了 有 用 的 
工具 来 帮助 你 组 装 “ 子 图 ”〔 常 用 于 神经 网 络 ) ， 当 然 用 户 也 可 以 自己 在 TensorFlow 基础 上 编写 
自己 的 “上 层 库 ”。 定 义 顺手 好 用 的 新 复合 操作 和 编写 一 个 Python 函数 一 样 容易 ， 而 且 也 不 用 担 
心性 能 损耗 。 当 然 万 一 我 们 发 现 找 不 到 想 要 的 底层 数据 操作 ， 我 们 也 可 以 自己 编写 一 点 C++ 代码 
来 丰富 底层 的 操作 。 


3.2.4 真正 的 可 移植 性 


TensorFlow 在 CPU 和 GPU 上 运行 ， 比 如 说 可 以 运行 在 台式 机 、 服 务 器 、 移 动 设备 等 上 面 。 
在 没有 特殊 硬件 的 前 提 下 ，TensorFlow 能 够 帮 我 们 在 自己 的 笔记 本 上 运行 一 下 机 器 学 习 、 深 度 学 
习 模 型 。TensorFlow 也 可 以 帮助 我 们 将 自己 的 训练 模型 在 多 个 CPU 上 进行 规模 化 的 运算 ， 同 时 不 
必修 改 代码 。TensorFlow 还 可 以 帮助 我 们 将 自己 训练 好 的 模型 作为 产品 的 一 部 分 部 署 到 手机 App. 
里 。TensorFlow 更 可 以 帮助 我 们 将 自己 的 模型 作为 云端 服务 运行 在 自己 的 服务 器 上 ， 或 者 运行 在 
Docker 容器 里 。 


3.2.5 “将 科研 和 产品 联系 在 一 起 


过 去 ， 要 将 科研 中 的 机 器 学 习 想 法 用 到 产品 中 ， 需 要 大 量 的 代码 重 写 工作 。 现 在 ， 谷 歌 公司 的 
科学 家 用 TensorFlow 尝试 新 的 算法 ， 产 品 团队 则 用 TensorFlow 来 训练 和 使 用 计算 模型 ， 并 直接 提 
供给 在 线 用 户 。 使 用 TensorFlow 可 以 让 应 用 型 研究 者 将 想法 迅速 地 运用 到 产品 中 ， 也 可 以 让 学 术 
性 研究 者 更 直接 地 彼此 分 享 代码 ， 从 而 提高 科研 产 出 率 。 


3.2.6 ”性 能 最 优化 


例如 ， 现 在 你 有 一 个 带 有 32 个 CPU 内 核 、4 个 GPU 显卡 的 工作 站 ， 就 可 以 利用 TensorFlow 
将 工作 站 的 计算 潜能 全 部 发 挥 出 来 。TensorFlow 给 予 了 线程 、 队 列 、 异 步 操作 等 最 佳 的 支持 ， 能 
够 让 我 们 将 自己 手边 硬件 的 计算 潜能 全 部 发 挥 出 来 。 我 们 可 以 自由 地 将 TensorFlow 图 中 的 计算 元 
素 分 配 到 不 同 设备 上 ， 让 TensorFlow 帮 有 我 们 管理 好 这 些 不 同 的 副本 。 


3.3 TensorFlow 安装 


我 们 可 以 在 多 个 平台 上 安装 和 使 用 TensorFlow， 例 如 Linux. Mac OS 和 Windows。 当 然 ， 我 
们 也 可 以 使 用 TensorFlow 最 新 的 GitHub 源 来 构建 和 安装 TensorFlow。 此外， 如 果 我 们 的 电脑 运行 
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的 是 Windows 系统 ， 那 么 比较 常用 的 是 通过 Anaconda 来 安装 TensorFlow. 
由 于 Python 3 附带 了 pip3 包 管 理 器 ， 它 是 用 于 安装 TensorFlow 的 程序 ， 因 此 如 果 我 们 使 用 的 
是 Python 的 这 个 版 本 ， 就 无 须 安装 pip。 为 简单 起 见 ， 在 本 节 中 将 展示 如 何 使 用 本 机 pip 安装 
TensorFlow。 下 面 给 出 在 Windows 系统 下 安装 TensorFlow 的 两 个 命令 。 启 动 一 个 “终端 ”程序 ， 
然后 在 该 “终端 ”中 执行 相应 的 pip3 install 命令 。 
A) 要 安装 TensorFlow 的 CPU 版 本 ， 输 入 以 下 命令 : 


C:\> pip3 install --upgrade tensorflow 


(2) 要 安装 TensorFlow 的 GPU 版 本 ， 输 入 以 下 命令 : 


C:\> pip3 install --upgrade tensorflow-gpu 


TE Linux 方面 ,TensorFlow Python API 3:4 Python 2.7 fll Python 3.3+, 因此 我 们 需要 安装 Python 
才能 启动 TensorFlow 安装 。 我 们 必须 安装 Cuda Toolkit 7.5 和 cuDNN v5.1 + 才能 获得 GPU 支持 。 
笔者 使 用 的 是 Ubuntu 系统 ， 是 采用 pip3 的 命令 来 安装 TensorFlow 的 ， 更 多 信息 也 可 以 参考 
https://tensorflow.google.cn/install/source 上 的 说 明 。 


在 Linux 上 安装 TensorFlow 


这 里 将 给 出 如 何在 Ubuntu 14.04 或 更 高 版 本 上 安装 TensorFlow。 此 处 提供 的 说 明 可 能 也 适用 
T Linux 其 他 版 本 ， 只 需 进行 少量 的 调整 即 可 。 

但 是 ， 在 继续 执行 正式 步骤 之 前 ， 我 们 需要 确定 在 平台 上 安装 哪个 TensorFlow， 我 们 可 以 在 
GPU 和 CPU 上 运行 数据 密集 型 张 量 应 用 程序 。 因 此 ， 应 该 选择 以 下 TensorFlow 两 种 版 本 中 的 一 
个 ， 在 我 们 的 平台 上 进行 安装 : 

e 4X CPU 的 TensorFlow: 如 果 计 算 机 上 没有 安装 NVIDIA 等 GPU, 就 必须 使 用 此 版 本 

安装 并 开始 计算 。 这 个 很 简单 ， 可 以 在 5 到 10 分 钟 内 完成 。 

€ 支持 GPU 的 TensorFlow: 深度 学 习 应 用 程序 通常 需要 非常 高 的 计算 资源 ，TensorFlow 也 

不 例外 ， 我 们 通常 可 以 在 GPU 上 而 不 是 在 CPU 上 加 快 数据 计算 和 分 析 速 度 。 如 果 你 的 
计算 机 上 有 NVIDIAGPU 硬件 ， 你 应 该 安装 并 使 用 此 版 本 。 


根据 我 们 的 经 验 ， 即 使 计算 机 上 集成 了 NVIDIA GPU 硬件 ， 也 有 必要 安装 并 首先 尝试 仅 使 用 
CPU 的 版 本 ， 如 果 你 没有 体验 到 良好 的 性 能 ， 那 么 再 切换 到 GPU 来 进行 支持 。 
支持 GPU 的 TensorFlow 版 本 有 几 个 要 求 , 例 如 64 位 Linux, Python 2.7( 或 Python 3 的 3.3+)， 
NVIDIACUDA7.5 或 更 高 版 本 (Pascal GPU 需要 CUDA 8.0) 和 NVIDIA cuDNN v4.0 (最 小 ) 或 v5.1 
(推荐 ) 。 更 具体 地 说 ，TensorFlow 的 当前 开发 仅 支持 使 用 NVIDIA 工具 包 和 软件 的 GPU 计算 。 
因此 ， 必 须 在 Linux 计算 机 上 安装 以 下 软件 才能 使 得 预测 分 析 应 用 程序 获得 GPU 的 支持 : 


© Python 
© NVIDIA Driver 
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© CUDA with compute capability >= 3.0 
€ CuDNN 


€  TensorFlow 

1. 安装 Python 和 NVIDIA 驱动 程序 

在 不 同 的 平台 上 安装 Python 的 操作 相对 比较 简单 ， 这 里 不 再 殉 述 。 另 外 ， 假 设 你 的 计算 机 中 
已 经 安装 了 NVIDIA GPU. 

要 检查 一 下 你 的 计算 机 中 的 GPU 是 否 已 正确 安装 和 正常 工作 ， 请 在 终端 上 执行 以 下 命令 ; 


$ lspci -nnk | grep -i nvidia 


由 于 预测 分 析 很 大 程度 上 依赖 于 机 器 学 习 和 深度 学 习 算法 , 因此 请 确保 你 的 计算 机 上 安装 了 一 
些 基本 软件 包 ， 例 如 GCC 和 一 些 用 于 科学 计算 的 Python 软件 包 。 


只 需 在 终端 上 执行 如 下 命令 : 

$ sudo apt-get update 

$ sudo apt-get install libglul-mesa libxi-dev libxmu-dev -y 
$ sudo apt-get — yes install build-essential 

$ sudo apt-get install python-pip python-dev -y 

$ sudo apt-get install python-numpy python-scipy -y 


现在 通过 wget 下 载 NVIDIA 驱动 程序 (不 要 忘记 为 你 的 计算 机 选择 正确 的 版 本 ) ， 并 以 silent 
模式 运行 脚本 : 


$ wget 


http://us.download.nvidia.com/XFree86/Linux-x86 64/367.44/NVIDIA-Linux-x86 64- 


367.44.run 


$ sudo chmod *x NVIDIA-Linux-x86 64-367.35.run 
$ ./NVIDIA-Linux-x86 64-367.35.run --silent 


一 些 GPU 显卡 ， 如 NVidia GTX 1080， 附 带 内 置 驱动 程序 。 因 此 ， 如 果 你 的 计算 机 具有 不 同 
于 GTX 1080 的 GPU， 就 必须 下 载 该 GPU 的 驱动 程序 。 
要 确保 驱动 程序 是 否 已 正确 安装 ， 请 在 终端 上 执行 以 下 命令 : 


$ nvidia-smi 


命令 的 结果 应 如 图 3-1 所 示 。 
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Wed Sep 27 00:58:45 


Version: 


图 3-1 nvidia-smi 命令 的 输出 结果 

2. 安装 NVIDIA CUDA 

为 了 将 TensorFlow 5j NVIDIA GPU 配合 使 用 ,需要 安装 CUDA Toolkit 8.0 及 其 相关 的 NVIDIA 
驱动 程序 。CUDA 工具 包 包 括 : 

€ ”GPU 加 速 库 ， 如 用 于 快速 傅 里 叶 变 换 的 cuFFT (FFT). 
基本 线性 代数 子 程序 (BLAS ) 的 cuBLAS。 
稀疏 矩阵 例 程 的 cuSPARSE. 
用 于 密集 和 稀 足 的 直接 求解 器 的 cuSOLVER。 
用 于 随机 数 生成 的 cuRAND， 用 于 图 像 的 NPP 和 视频 处 理 原 语 。 
NVIDIA 图 形 分 析 库 的 nvGRICH。 
推力 模板 并 行 算法 和 数据 结构 专用 的 CUDA 数学 库 。 


对 于 Linux， 下 载 和 安装 所 需 的 包 : 
https://developer.nvidia.com/cuda-downloads 
使 用 的 wget 命令 如 下 : 


$ wget https://developer.nvidia.com/compute/cuda/8.0/Prod2/1ocal 
installers/cuda 8.0.61 375.26 linux-run 

$ sudo chmod +x cuda 8.0.61 375.26 linux.run 

$ ./ cuda 8.0.61 375.26 linux.run --driver --silent 

$ ./ cuda 8.0.61 375.26 linux.run --toolkit --silent 
$ 


./ cuda 8.0.61 375.26 linux.run --samples -silent 


ir 


另外 ， 确 保 你 已 经 将 CUDA 安装 路 径 添加 到 LD_LIBRARY PATH 环境 变量 中 : 


$ echo 'export LD LIBRARY PATH-"$LD LIBRARY PATH:/usr/local/cuda/lib64:/ 
usr/local/cuda/extras/CUPTI/lib64"' >> -/.bashrc 
$ echo 'export CUDA HOME-/usr/local/cuda' >> -/.bashrc 


$ source -/.bashrc 
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3. 安装 NVIDIA cuDNN v5.1+ 


安装 CUDA Toolkit 后 ,从 Linux 上 下 载 cuDNN v5.1 库 ,解压 缩 文 件 并 将 其 复制 到 CUDA Toolkit 
目录 (假设 在 /usr / local / cuda /中 ) : 


$ cd /usr/local 

$sudo mkdir cuda 

$ cd -/Downloads/ 

$ wget http://developer2.download.nvidia.com/compute/machine-learning/ 
cudnn/secure/v6/prod/8.0 20170427/cudnn-8.0-linux-x64-v6.0.tgz 

$ sudo tar -xvzf cudnn-8.0-linux-x64-v6.0.tgz 

$ cp cuda/lib64/* /usr/local/cuda/lib64/ 

$ cp cuda/include/cudnn.h /usr/local/cuda/include/ 


注意 ， 要 安装 cuDNN v5.1 库 ， 我 们 必须 在 https://developer.nvidia.com/accelerated-computing- 
developer 上 注册 加 速 计算 开发 程序 。 现 在 ， 当 安装 了 cuDNN v5.1 库 之 后 ， 请 确保 创建 了 
CUDA_HOME 环境 变量 。 

4. 安装 libcupti-dev Jk 

最 后 ， 需 要 在 你 的 计算 机 上 安装 libeupti-dev 库 ， 这 是 提供 高 级 分 析 支 持 的 NVIDIA CUDA. 
要 安装 此 库 ， 请 执行 以 下 命令 : 


$ sudo apt-get install libcupti-dev 
5. 安装 TensorFlow 


有 关 如 何 为 CPU 安装 最 新 版 本 的 TensorFlow， 以 及 如 何 为 具有 NVIDIA 、cuDNN 和 CUDA 
计算 能 力 的 GPU 提供 支持 ， 请 参阅 下 面 的 部 分 。 可 以 在 计算 机 上 以 多 种 方式 安装 TensorFlow， 比 
如 使 用 virtualenv, pip, Docker 和 Anaconda。 这 里 使 用 pip 和 virtualenv 方式 。 (有 兴趣 的 读者 可 
以 尝试 使 用 Docker 和 Anaconda 安装 ， 详 见 https://tensorflow.google.cn/install/。) 


(1) 使 用 本 地 pip 安装 TensorFlow 
对 于 Python 2.7， 仅 支持 CPU 版 本 的 ， 具 体 如 下 : 


pip install tensorflow 

For Python 3.x and of course with only CPU support: 
pip3 install tensorflow 

For Python 2.7 and of course with GPU support: 

pip install tensorflow-gpu 

For Python 3.x and of course with GPU support: 
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pip3 install tensorflow-gpu 


(2) 使 用 virtualenv 安装 TensorFlow 
如 果 你 已 经 在 系统 上 安装 了 Python 2+( 或 3+) 和 pip( 或 pip3), 请 按照 以 下 步骤 安装 TensorFlow. 


人 台 创 建 virtualenv 环境 : 
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$ virtualenv --system-site-packages targetDirectory 


targetDirectory 表示 virtualenv 树 的 根 目录 。 默 认 情 况 下 ， 它 是 一 / tensorflow〔 也 可 以 选择 任何 
其 他 目录 ) 。 


@ 按 如 下 方式 激活 virtualenv 环境 : 
$ source ~/tensorflow/bin/activate # bash, sh, ksh, or zsh 
$ source ~/tensorflow/bin/activate.csh # csh or tcsh 


如 果 命 令 在 步骤 2 中 执行 成 功 ， 那 么 在 “终端 ”程序 中 上 应 该 可 以 看 到 以 下 内 容 : 


(tensorflow)$ 


图 安装 TensorFlow. 
按照 以 下 命令 之 一 在 激活 的 virtualenv 环境 中 安装 TensorFlow。 
对 于 仅 支持 CPU 的 Python 2.7， 请 使 用 以 下 命令 : 


(tensorflow)$ pip install --upgrade tensorflow 


对 于 仅 支持 CPU 的 Python 3.x， 请 使 用 以 下 命令 : 
(tensorflow)$ pip3 install --upgrade tensorflow 
对 于 支持 GPU 的 Python 2.7， 请 使 用 以 下 命令 : 


(tensorflow)$ pip install --upgrade tensorflow-gpu 


对 于 仅 支 持 GPU 的 Python 3.x， 请 使 用 以 下 命令 : 
(tensorflow)$ pip3 install --upgrade tensorflow-gpu 


如 果 上 述 命令 成 功 ， 就 跳 过 步骤 5， 如 果 上 述 命令 失败 ， 请 执行 步骤 5。 此外， 如 果 步 又 3 以 
某 种 方式 失败 ， 请 尝试 通过 执行 以 下 命令 以 在 激活 的 virtualenv 环境 中 安装 TensorFlow: 

# 对 于 python 2.7 (选择 具有 CPU 或 GPU 支持 的 适当 URL) : 

(tensorflow)$ pip install --upgrade TF PYTHON URL 


# 对 于 python 3.x (选择 具有 CPU B GPU 支持 的 适当 URL) : 
(tensorflow)$ pip3 install --upgrade TF PYTHON URL 


@ 验 证 安装 。 
要 在 步骤 3 中 验证 安装 ， 必 须 激活 虚拟 环境 。 如 果 virtualenv 环境 当前 未 处 于 激活 状态 ， 请 执 
行 以 下 命令 之 一 : 


$ source -/tensorflow/bin/activate 4 bash, sh, ksh, or zsh 


$ source -/tensorflow/bin/activate.csh # csh or tcsh 


OHR TensorFlow. 
ESAE TensorFlow， 只 需 删 除 创建 的 目录 树 即 可 。 例 如 : 


40 | TensorFlow 与 自然 语言 处 理应 用 


$ rm -r targetDirectory 

6. 测试 安装 的 TensorFlow 

启动 一 个 Python 终端 〈 只 需 在 终端 上 输入 python 或 python3 ) ， 执 行 一 段 常 见 的 “Hello, 
TensorFlow!” 程 序 ， 代 码 行 如 下 : 


>>> import tensorflow as tf 
>>> hello = tf.constant("Hello, TensorFlow!") 
>>> sess-tf.Session() 


>>> print sess.run(hello) 


如 果 TensorFlow 安装 成 功 ， 我 们 将 看 到 输出 结果 为 “Hello, TensorFlow!" . 
3.4 TensorFlow 计算 图 


在 执行 TensorFlow 程序 时 ， 我 们 需要 构建 一 个 计算 图 ， 然 后 按照 计算 图 启动 一 个 会 话 ， 在 会 
话 中 完成 变量 赋值 、 计 算 等 操作 并 得 到 最 终结 果 。 换 句 话 说 ，TensorFlow 的 计算 图 可 以 划分 为 两 
部 分 : 

e ”构造 部 分 ， 包 含 计算 流 图 ， 用 于 构建 模型 。 

© /— 执行 部 分 ， 通 过 会 话 (Session) 执行 图 中 的 计算 ， 用 于 提供 数据 并 获得 结果 。 

对 于 计算 图 的 构造 部 分 而 言 ， 我 们 又 可 以 分 为 两 部 分 : 

e 创建 源 节点 。 

e 源 节 点 的 输出 传递 给 其 他 节点 做 运算 操作 。 

这 里 , 更 吸引 我 们 的 是 , TensorFlow 会 在 C++ 引擎 上 执行 每 一 项 运算 操作 , 这 意味 着 在 Python 
中 也 不 会 执行 任何 乘法 或 加 法 ，Python 只 是 一 个 包装 器 。 从 根本 上 讲 ，TensorFlow C ++ 引 擎 包含 
以 下 两 方面 : 

e 卷 积 、 最 大 池 化 、Sigmoid 等 操作 的 高 效 实现 。 

@ ”转发 模式 操作 的 导数 。 

计算 图 基本 上 类 似 于 数据 流 图 。 图 3-2 显示 了 一 个 简单 计算 的 计算 图 ， 用 于 计算 简单 的 等 式 ， 
如 ==dxc= (a+b) xe. 
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图 3-2 一 个 简单 的 执行 图 


在 图 3-2 中 ， 圆 圈 表 示 节 点 处 的 操作 ， 和 矩形 表示 整个 数据 计算 图 。 在 TensorFlow 的 实施 中 ， 
TensorFlow 计算 图 包含 以 下 内 容 : 


€ 一 组 从 Operation 对 象 ; 用 于 表示 要 执行 的 计算 单元 。 

€ 好 Tensor 对 象 : 用 于 表示 控制 操作 之 间 数 据 流 的 数据 单元 。 

使 用 TensorFlow 还 可 以 执行 延迟 操作 。 一 旦 在 计算 图 的 构建 阶段 编写 了 高 度 组 合 的 表达 式 ， 
我 们 仍然 可 以 在 会 话 的 运行 阶段 去 对 它们 求 值 。 从 技术 上 讲 ，TensorFlow 会 给 出 措施 并 以 有 效 的 
方式 按时 执行 。 例 如 ， 使 用 GPU 并 行 执行 代码 的 独立 部 分 ， 如 图 3-3 所 示 。 


图 3-3 TensorFlow 图 中 的 边 和 节点 将 在 CPU 或 GPU 等 设备 上 的 会 话 下 执行 
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3.5 TensorFlow 张 量 和 模型 会 话 


3.5.1 KÆ 


在 TensorFlow 中 ， 张 量 (Tensor) 是 对 运算 结果 的 引用 ， 运 算 结果 多 数 情况 下 是 以 数组 的 形 
式 存 储 的， 与 numpy 中 的 数组 不 同 的 是 ， 张 量 还 具有 三 个 重要 属性 : 名 字 、 维 度 、 类 型 。 张 量 的 
名 字 是 张 量 的 唯一 标识 符 ， 我 们 通过 名 字 可 以 发 现 张 量 是 如 何 被 计算 出 来 的 。 例 如 “multiply:0” 
代表 的 是 计算 节点 “multiply” 的 第 1 个 输出 结果 ，“add:2” 代 表 的 是 计算 节点 “add” 的 第 3 个 
TensorFlow 有 两 种 类 型 的 边 ， 或 者 说 张 量 (Tensor) 的 类 型 有 两 种 : 


e 正常: 它们 承载 节点 之 间 的 数据 结构 。 来 自 一 个 节点 的 一 个 运算 或 操作 的 输出 变 为 另 一 
个 运算 或 操作 的 输入 。 连 接 两 个 节点 的 线 携带 这 些 数值 。 

€ jk: 此 边 不 携带 数值 ， 但 是 只 表示 两 个 节点 (edo K fY) 之 间 的 控制 依赖 关系 。 这 
意味 着 节点 立 只 有 在 和 中 的 运算 或 操作 已 经 执行 时 才 会 被 执行 。 


我 们 也 可 以 这 样 理解 ，TensorFlow 计算 图 中 的 每 个 节点 的 输入 输出 都 是 张 量 〈Tensor) ， 而 
连接 节点 的 边 〈《 有 向 线段 ) 就 是 Flow， 表 示 从 一 个 张 量 (Tensor) 状态 到 另 一 个 张 量 (Tensor) 
状态 。 我 们 在 编写 程序 时 ， 都 是 逐步 计算 的 ， 每 计算 完 一 步 便 能 够 获得 一 个 执行 结果 。 对 于 Tensor 
数据 类 型 而 言 ,虽然 我 们 可 以 事先 定义 或 者 根据 计算 图 的 结构 推断 得 到 , 但 是 有 一 类 特殊 的 边 中 并 
没有 数据 流动 ， 这 种 边 便 是 依赖 控制 (Control Dependencies) ， 其 作用 便 是 让 它 的 起 始 节点 执行 完 
之 后 再 去 执行 目标 节点 ， 这 样 一 来 我 们 就 可 以 使 用 边 进行 灵活 的 条 件 控制 了 。 比 如 ， 我 们 在 
TensorFlow 实施 中 定义 了 依赖 控制 关系 ， 便 可 以 在 其 他 独立 的 操作 之 问 强制 执行 排序 ， 以 作为 限 
制 使 用 内 存 最 高 峰值 的 一 种 方式 。 

在 TensorFlow 中 ， 一 个 张 量 基本 上 是 一 个 n 维 数组 ， 下 面 让 我 们 通过 表 3-1 中 的 内 容 来 解读 
一 下 张 量 和 维 数 的 关系 。 


表 3-1 张 量 和 维 数 的 关系 


维 数 阶 名 称 示例 
0-D 0 标量 (Scalar) EE] 
1-D | 1 [5] (Vector) [v=0.23] 
2D | 2 和 矩阵 | m=[[1.2.3].[4.5.6] 
3-D | 3 张 量 | t[[..- 
|- " |- 
n-D n 张 量 | THI... 


张 量 可 以 表示 0 阶 到 阶 的 数组 (列表 ) 。 这 里 ， 阶 是 张 量 的 维 数 。 第 0 阶 张 量 是 一 个 数 ， 也 
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就 是 标量 ， 第 1 阶 张 量 是 一 个 一 维 数组 ， 也 就 是 向 量 ; 第 2 阶 张 量 是 一 个 二 维 数 组 ， 也 就 是 矩阵 ; 
E n 阶 张 量 是 一 个 维 数组 。 


3.52 ik 


如 前 所 述 ，TensorFlow FHJ (Session) 用 来 执行 事先 定义 好 的 运算 ， 负 责 完成 多 个 计算 
设备 或 集群 分 布 式 节点 的 布置 和 数据 传输 节点 的 添加 , 并 且 还 负责 将 子 图 分 配给 相应 的 执行 器 单元 
进行 运行 。 会 话 拥 有 并 管理 TensorFlow 程序 运行 时 的 所 有 资源 。 当 计算 完成 之 后 需要 关闭 会 话 来 
帮助 系统 回收 资源 ， 否 则 就 可 能 出 现 计算 资源 被 占用 的 问题 。 


3.6 TensorFlow 工作 原理 


TensorFlow 是 一 个 具有 “client 一 master 一 worker” 架 构 的 分 布 式 系 统 。 在 TensorFlow 中 ， 参 

与 分 布 式 系 统 的 所 有 节点 或 者 设备 被 统称 为 一 个 cluster (集群 》， 一 个 cluster 中 包含 多 个 server 

(服务 器 ) ， 每 个 server 去 执行 一 项 task (任务 ) ， 而 server 和 task 又 是 一 一 对 应 的 。 这 样 看 来 ， 
我 们 可 以 把 cluster 看 成 是 server 的 集合 ， 也 可 以 看 成 是 task 的 集合 。TensorFlow 为 每 个 task 又 增 
加 了 一 个 抽象 层 ， 将 一 系列 相似 的 task 集合 称 为 一 个 job CLE) 。 例 如 ， 我 们 在 PS 架构 中 ， 习 
惯 称 parameter server (参数 服务 器 ) 的 task 集合 为 ps, 而 把 执行 梯度 计算 的 task 集合 称 为 worker。 
因此 ，cluster 又 可 以 被 看 成 是 job 的 集合 ， 实 际 上 这 只 是 逻辑 上 的 意义 ， 我 们 还 需要 有 具体 看 一 下 这 
个 server 真正 做 的 是 什么 。 在 TensorFlow 中 ，job 用 name (字符 串 ) 标识，task 用 index (整数 索 
引 或 整数 下 标 ) 标 识 , cluster 中 的 每 个 task 都 可 以 用 job 的 name 加 上 task 的 index 来 作 唯一 标识 。 
在 分 布 式 系统 中 ， 一 般 情 况 下 各 个 task 在 不 同 的 节点 或 者 设备 上 执行 。 

通常 情况 下 ， 客 户 端 (client) 通过 会 话 给 Session 接口 和 master 展开 通信 ， 且 将 触发 执行 的 请 
求 提 交 给 master, Mi master 会 把 所 要 执行 的 任务 分 派 给 单个 或 多 个 worker 进程 ， 相 关 结 果 通 过 
master 返回 给 客户 端 。 这 里 ，worker 负责 计算 的 执行 ， 任 何 一 个 worker 进程 都 会 管理 和 使 用 计算 
机 上 的 计算 硬件 设备 资源 ， 比 如 一 块 或 者 多 块 CPU 和 GPU， 进 而 处 理 计算 子 图 (Subgraph) 的 运 
算 或 操作 过 程 。 

其 实 ，TensorFlow 的 架构 横向 扩展 是 很 灵活 的 。 在 单机 模式 的 多 数 情况 下 ，client、master 和 
worker 均 在 同一 个 进程 中 启动 ， 而 worker 进程 会 管理 本 机 上 所 有 的 计算 设备 资源 。 在 分 布 式 的 架 
构 中 ,我们 可 以 通过 远程 调用 的 方式 将 client, master 和 worker 连接 在 一 起 ， 且 任何 一 个 worker 
进程 各 自 监控 关联 执行 机 上 的 计算 设备 。 关 于 TensorFlow 的 单机 和 分 布 式 架构 如 图 3-4 所 示 。 
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单机 架构 模式 分 布 式 架构 模式 


m 


-一 一 执行 子 图 计算 
$ , * 


is J N 2 E 7 


图 3-4 TensorFlow 的 单机 和 分 布 式 架构 示意 图 


在 创建 计算 图 之 后 ，TensorFlow 需要 以 分 布 式 方式 由 多 个 CPU (以 及 GPU， 如 果 可 用 ) 执行 
激活 的 会 话 。 通 常 ， 实 际 上 不 需要 明确 指定 是 使 用 CPU 还 是 GPU， 因 为 TensorFlow 可 以 选择 并 


使 用 其 中 一 个 。 默 认 情况 下 ， 将 选择 GPU 进行 尽 可 能 多 的 运算 ; 否则， 将 使 用 CPU。 因 此， 从 广 
义 上 看 ， 以 下 是 TensorFlow 的 主要 组 件 : 


e X (Variable): 用 于 包含 TensorFlow 会 话 之 间 权 重 值 和 偏差 的 值 。 

€ KË (Tensor): 在 节点 之 间 传 递 的 一 组 值 。 

e 564 (Placeholder) : 用 于 在 程序 和 TensorFlow 图 之 间 发 送 数 据 。 

€ 会话 (Session): 启动 会 话 时 ，TensorFlow 会 自动 计算 图 中 所 有 计算 的 梯度 ， 并 在 链 式 

规则 中 使 用 它们 。 实 际 上 ， 在 执行 图 形 时 会 调用 会 话 。 

从 技术 上 说 ， 我 们 要 编写 的 程序 可 以 被 视 为 客户 端 ， 而 客户 端 用 于 以 符号 方式 在 C/C + 或 
Python 中 创建 计算 图 ， 接 着 ， 我 们 的 代码 可 以 要 求 TensorFlow 执行 此 该 图 ， 请 参见 图 3-5 中 的 详 
细 信 息 。 


一 质 行 子 图 计算 


3-5 在 TensorFlow 分 布 式 架构 下 执行 代码 示意 图 
计算 图 有 助 于 在 具有 CPU 或 GPU 的 多 个 计算 节点 上 分 配 工作 负载 。 这 样 , 神经 网 络 等 同 于 复 
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合 函 数 ， 其 中 每 个 层 〈 输 入 层 、 隐 藏 层 或 输出 层 ) 可 以 表示 为 函数 。 现 在 想 要 了 解 在 张 量 上 执行 的 
运算 或 操作 ， 有 必要 探讨 TensorFlow 编程 模块 方面 的 解决 方案 。 


3.7. 通过 一 个 示例 来 认识 TensorFlow 


现在 让 我 们 结合 示例 对 TensorFlow 框架 中 的 一 些 基本 组 件 进行 更 多 的 解读 。 我 们 编写 一 个 示 
例 来 执行 以 下 计算 ， 这 在 神经 网 络 中 非常 常见 : 


h — sigmoid(W * x 5) 
这 里 政和 x 是 矩阵 ， 是 向 量 ，* 表 示 点 积 。 sigmoid 是 一 个 非 线性 变换 ， 由 下 式 给 出 : 


sigmoid(x) = 
1 pet 
我 们 将 逐步 讨论 如 何 通过 TensorFlow 进行 上 述 计算 。 
首先 ,我 们 需要 导入 TensorFlow 和 NumPy.。 在 Python 中 运行 任何 类 型 的 TensorFlow 或 NumPy 
相关 操作 之 前 ， 均 必须 导入 它们 : 
import tensorflow as tf 


import numpy as np 
接 下 来 ， 我 们 定义 一 个 图 对 象 ， 稍 后 将 使 用 运算 或 操作 和 变量 填充 它们 : 


graph = tf.Graph() # 创建 一 个 图 (graph) 对 象 
session = tf.InteractiveSession(graph-graph) + 创建 一 个 会 话 (session) 对 象 


graph 对 象 包含 一 个 计算 图 ， 该 计算 图 连接 我 们 在 程序 中 定义 的 各 种 输入 和 输出 ， 以 获得 最 终 
所 需 的 输出 《〈 即 它 定义 W、x RI b 如 何 被 连接 以 便 我 们 根据 图 生成 h) 。 此 外 ， 我 们 将 定义 一 个 会 
话 对 象 ， 该 对 象 以 定义 的 图 作为 输入 ， 执 行 该 图 。 我 们 后 面 会 详细 讨论 这 些 元 素 。 

要 创建 新 的 图 对 象 ， 可 以 使 用 以 下 操作 : 


graph = tf.Graph() 


也 可 以 使 用 以 下 操作 来 获取 TensorFlow 默认 计算 图 : 


graph = tf.get default graph() 


现在 我 们 将 定义 一 些 张 量 , BU x. W, b 和 he 在 TensorFlow 中 , 定义 张 量 有 几 种 不 同 的 方法 ， 
在 这 里 列 出 三 种 : 

COD 首先 ，x 是 一 个 占 位 符 。 顾 名 思 义 ， 占 位 符 没有 被 初始 化 。 相 反 ， 我 们 将 在 图 执行 时 提 
供 一 些 数值 。 

(2) 其 次 ， 这 里 有 变量 W 和 b。 由 于 变量 是 可 变 的 ， 这 意味 着 它们 的 值 可 以 随时 间 而 变化 。 

GO 最 后 ,我们 有 h， 这 是 一 个 通过 对 x、W 和 执行 一 些 操作 而 产生 的 不 可 变 的 张 量 : 


46 | TensorFlow 与 自然 语言 应 用 


x = tf.placeholder (shape-[1,10],dtype-tf.float32,name-'x') 

W — tf.Variable(tf.random uniform(shape-[10,5], minval--0.1,maxval-0.1, 
dtype-tf.float32),name-'W') 

b = tf.Variable(tf.zeros(shape-[5],dtype-tf.float32),name-'b') 

h = tf.nn.sigmoid(tf.matmul(x,W) + b) 


注意 ， 对 于 W 和 b， 我 们 提供 了 一 些 重要 的 参数 : 


tf.random uniform(shape-[10,5], minval--0.1, maxval=0.1,dtype=tf.float32) 
tf.zeros(shape-[5],dtype-tf.float32) 


这 些 被 称 为 变量 初始 化 器 ， 是 最 初 分 配给 W 和 变量 的 张 量 。 变 量 不 能 在 没有 初始 值 的 情况 
下 作为 占 位 符 流动 ， 并 且 需 要 始终 为 它们 分 配 一 些 数值 。 这 里 ，tfrandonm_ uniform 意味 着 我 们 在 
minval(-0.1) 和 maxval(0.1) 之 间 均 匀 地 采样 以 将 值 赋 给 张 量 ， 并 且 t£zeros 用 零 初始 化 张 量 。 在 定义 
张 量 时 ,定义 张 量 的 shape 也 非常 重要 。shape 属性 定义 张 量 每 个 维度 的 大 小 .例如 , 如 果 形 状 (shape) 
是 [10,5]， 这 意味 着 它 将 是 一 个 二 维 结构 ， 在 0 轴 上 有 10 个 元 素 ， 在 1 轴 上 有 5 个 元 素 。 

接 下 来 ， 我 们 将 进行 初始 化 操作 ， 初 始 化 图 中 的 变量 W RI b: 


tf.global variables initializer().run() 


现在 ， 将 执行 计算 图 以 获得 我 们 需要 的 最 终 输 出 h。 这 是 通过 运行 session.run(.…) 来 完成 的 ， 我 
们 将 以 占 位 符 的 值 作为 session.run0 命 令 的 参数 : 


h eval = session.run(h,feed dict-(x: np.random.rand(1,10)]) 


最 后 ， 关 闭会 话 ， 释 放 session 对 象 持 有 的 所 有 资源 。 


session.close() 


以 下 是 此 TensorFlow 示例 的 完整 代码 。 本 章 中 的 所 有 代码 示例 都 将 在 ch3 文件 夹 中 的 
3 tensorflow introduction.ipynb 文件 中 提供 : 


import tensorflow as tf 

import numpy as np 

4 5EX graph 和 session 

graph = tf.Graph() # Creates a graph 


session = tf.InteractiveSession(graph-graph) # Creates a session 


* Hj graph 

# 占 位 符 是 一 种 符号 输入 

x = tf.placeholder (shape-[1,10],dtype-tf.float32,name-'x') 

W = tf.Variable(tf.random uniform(shape-[10,5], minval--0.1,maxval-0.1, 
dtype-tf.float32),name-'W') + 相关 变量 


+ 相关 变量 
b = tf.Variable(tf.zeros(shape-[5],dtype-tf.float32),name-'b') 
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h = tf.nn.sigmoid(tf.matmul(x,W) + b) Operation to be performed 
在 图 中 执行 操作 和 评估 节点 

tf.global variables initializer().run() + 初始 化 变量 

# 通 过 为 输入 x 提供 数值 来 运行 该 操作 

h eval = session.run(h,feed dict-(x: np.random.rand(1,10)]) 

+ 关闭 会 话 以 释放 会 话 中 的 所 有 已 保存 资源 


session.close() 


3.8 TensorFlow 客户 端 


前 面 的 示例 程序 可 以 称 为 TensorFlow 客户 端 ， 本 节 结 合 示例 和 上 面 的 内 容 ， 对 TensorFlow 2 
户 端 做 详细 的 解读 。 在 使 用 TensorFlow 编写 的 任何 客户 端 程序 中 , 主要 将 有 两 种 主要 类 型 的 对 象 : 
运算 (Operation) 和 张 量 (Tensor) 。 在 前 面 的 例子 中 ，tf.nn.sigmoid 是 一 个 运算 ，h 是 张 量 。 

然后 ， 这 里 还 有 一 个 graph 对 象 ， 它 是 存储 程序 数据 流 的 计算 图 。 当 我 们 在 代码 中 添加 定义 的 
X. W, b 和 h 的 后 续 代 码 行 时 ，TensorFlow 会 自动 将 这 些 张 量 (Tensor) 和 每 个 运算 (Operation) 
Cfi, t£matmulQ) 作为 节点 添加 到 图 中 。 该 图 将 存储 重要 信息 ， 例 如 张 量 的 依赖 性 以 及 要 执行 
的 运算 。 在 我 们 的 示例 中 ， 如 果 要 计算 h， 那 么 张 量 x、W 和 ob 是 必需 的 。 因 此 ， 如 果 在 运行 时 没 
有 正确 初始 化 其 中 一 个 参数 ，TensorFlow 将 在 这 里 指出 需要 修正 的 具体 的 初始 化 错误 。 

接着 ， 由 前 面 内 容 ， 我 们 知道 会 话 (Session) 将 扮演 执行 计算 图 的 角色 ， 方 法 是 将 图 划分 为 
子 图 、 更 精细 的 图 ， 然 后 将 这 些 图 分 配给 将 执行 指定 任务 的 worker， 这 是 通过 session.run(.…) 函 数 
来 完成 的 。 下 面 ， 我 们 来 看 看 TensorFlow 架构 中 执行 客户 端 时 的 情况 。 

大 家 知道 ，TensorFlow 擅长 创建 一 个 包含 所 有 依赖 关系 和 运算 的 精确 计算 图 ， 且 它 能 够 准确 
地 知道 数据 流 以 何 种 方式 、 何 时 、 在 哪里 流动 。 当然, 还 有 一 个 元 素 使 得 TensorFlow 变 得 更 优秀 ， 
那 就 是 能 够 有 效 执行 计算 图 的 会 话 (Session〉， 这 也 是 会 话 进 入 TensorFlow 架构 的 入 口 之 处 。 现 
在 让 我 们 来 看 看 会 话 的 内 部 情况 ， 以 了 解 图 形 是 如 何 被 执行 的 。 

首先 ， 由 前 面 的 介绍 ， 我 们 知道 TensorFlow 客户 端 中 的 相关 元 素 有 计算 图 、 张 量 和 会 话 。 创 
建 会 话 时 , 它 会 将 计算 图 作为 人 GraphDef 协议 缓冲 区 发 送 到 分 布 式 架构 的 主机 。 tf.GraphDef 是 图 
的 标准 化 表示 。 分布 式 主 服务 器 查看 图 中 的 所 有 计算 ， 并 将 计算 划分 到 不 同 的 设备 (例如, 不同 的 
GPU ftl CPU) 。 我 们 的 sigmoid 示例 中 的 计算 图 如 图 3-6 所 示 。 

接 下 来 , 计算 图 将 被 分 解 为 子 图 ， 并 进一步 细 分 为 更 细 的 部 分 ， 这 在 具有 许多 隐藏 层 的 现实 世 
界 解 决 方案 中 意义 更 大 。 此 外 ， 为 了 并 行 地 执行 任务 〈 例 如 ， 多 个 设备 ) ,将 计算 图 分 解 为 多 个 前 
分 就 变 得 很 重要 。 执 行 此 图 ( 若 该 图 被 划分 为 子 图 ， 则 执行 子 图 ) 称 为 单个 任务 ， 其 中 任务 被 分 配 
给 单个 TensorFlow 服务 器 。 
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tf.nn.sigmoid 


图 3-6 客户 端的 计算 图 
然而 ,在 现实 中 , 每 个 任务 都 是 通过 将 其 分 解 为 两 个 部 分 来 执行 的 ,每 个 部 分 都 是 由 单个 worker 
执行 的 : 
€ 一 个 worker 使 用 参数 的 当前 值 (运算 执行 器 ) 执行 TensorFlow 操作 。 
€  —^ worker 存储 参数 ， 并 使 用 执行 运算 器 后 获得 新 值 来 更 新 它们 ( 参数 服务 器 ) 。 


TensorFlow 客户 端的 通用 工作 流程 如 图 3-7 所 示 。 


Tensorflow Client 


Graph Session 


Distributed 


,| GraphDef 


Single Task 
图 3-7 TensorFlow 客户 端的 通用 执行 路 线 图 


图 3-8 说 明了 计算 图 的 分 解 情况 。 除 了 分 解 计算 图 之 外 ，TensorFlow 还 插入 发 送 节点 和 接收 节 
点 ， 以 利于 参数 服务 器 和 运算 执行 器 之 问 的 通信 。 我 们 可 以 理解 为 每 当 数据 可 用 时 ， 发 送 节 点 就 发 
送 数据 ， 其 中 接收 节点 在 对 应 的 发 送 节点 发 送 数据 时 继续 侦 听 和 捕获 数据 。 
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assign 


Parameter Server | 
O 
Ci | Op Executor 


/job:ps/task:ü /job:worker/task:0 


图 3-8 计算 图 的 分 解 情况 


最 后 , 一 旦 计算 完成 , 会 话 就 将 更 新 的 数据 从 参数 服务 器 端 带 回 到 客户 端 。 从 现在 技术 角度 来 
看 ,我 们 也 可 以 给 出 TensorFlow 的 技术 架构 , 如 图 3-9 所 示 。 此 解释 基于 https://tensorflow.google.cn/ 
extend/architecture 上 的 官方 TensorFlow 文档 。 


CAPI 


Kernel implementations 


Device layer 


图 3-9 TensorFlow 技术 架构 


3.9 TensorFlow 中 常见 元 素 解 读 


在 了 解 底层 架构 的 同时 ， 我 们 下 面 将 介绍 构成 TensorFlow 客户 端 中 最 常见 的 元 素 。 
© 输入 (Input) : 用 于 训练 和 测试 算法 的 数据 。 
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e 变量 (Variable) : 可 变 张 量 ， 主 要 定义 算法 的 参数 。 
€ 输出 (Output): 存储 终端 和 中 间 输 出 的 不 可 变 张 量 。 


运算 或 操作 (Operation ) : 输入 的 各 种 变换 以 产生 期 望 的 输出 。 


在 之 前 的 sigmoid 示例 中 ， 我 们 可 以 找到 相关 类 别 的 实例 ， 如 表 3-2 中 所 示 。 


表 3-2 sigmoid 例子 中 相关 类 别 的 实例 


TensorFlow 元 素 示例 客户 端的 值 

Input 一 输入 x 

Variable 一 变量 Ww Ñb 

Output 一 输出 h 

Operation 一 运算 操作 tf.matmul(...), tf.nn.sigmoid(...) 


接 下 来 ， 我 们 将 详细 解读 TensorFlow 中 的 这 些 元 素 。 


3.9.1 在 TensorFlow 中 定义 输入 


客户 端 主要 以 下 面 三 种 不 同 的 方式 接收 数据 : 


€ 使 用 Python 代码 在 算法 的 每 个 步骤 中 提供 数据 。 
€ 将 数据 预 加 载 并 存储 为 TensorFlow KE. 


o “构建 输入 管道 。 


接 下 来 ， 具 体 看 看 这 三 种 不 同 的 方式 。 
1. 使 用 Python 代码 提供 数据 


在 第 一 种 方法 中 ， 可 以 使 用 传统 的 Python 代码 方法 将 数据 提供 给 TensorFlow 客户 端 。 在 我 们 
之 前 的 示例 中 ，x 是 此 方法 的 示例 。 为 了 从 外 部 数据 结构 〈 例 如 ，numpy.ndarray) 向 客户 端 提供 数 
据 ，TensorFlow 库 提供 了 一 种 极 佳 的 数据 结构 符号 ， 称 为 占 位 符 (Placeholder) ， 
tplaceholder(.…)。 前 面 我 们 说 过 ， 占 位 符 在 计算 图 构建 阶段 不 需要 实际 数据 相反， 我 们 仅 通过 执 
行 session.run(.…, feed dict = (placeholder: value}) 调 用 的 图 时 提供 数据 , 方法 是 将 外 部 数据 以 Python 


字典 的 形式 传递 给 feed_dict 参数 。 占 位 符 的 定义 如 下 : 


tf.placeholder (dtype, shape=None, name=None) 


参数 如 下 : 


€ dtype: 这 是 提供 占 位 符 的 数据 的 类 型 。 
© shape: 这 是 占 位 符 的 shape， 以 一 维 向 量 给 出 。 
€ name: 这 是 占 位 符 的 名 称 ， 对 于 调试 很 重要 。 
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2. 将 数据 预 加 载 并 存储 为 张 量 
第 二 种 方法 与 第 一 种 方法 类 似 , 但 有 一 点 需要 注意 。 我 们 不 必 在 计算 图 执行 期 间 提供 数据 ， 因 
为 数据 是 预先 加 载 的 。 为 了 了 解 这 一 点 ， 让 我 们 修改 一 下 sigmoid 示例 ， 将 x 定义 为 占 位 符 : 


x = tf.placeholder (shape-[1,10],dtype-tf.float32,name-'x') 


另外 ， 也 将 x 定义 为 包含 具体 数值 的 张 量 : 


X — tf.constant (value-[[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]], 
dtype-tf.float32,name-'x') 


其 完整 代码 将 变 为 如 下 : 


import tensorflow as tf 
# 定义 graph 和 session 
graph = tf.Graph() 


session = tf.InteractiveSession (graph-graph) 
# 创建 计算 图 graph 
tx - 预 加 载 的 输入 
x = tf.constant (value=[[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]], 
dtype-tf.float32,name-'x') 
W = tf.Variable(tf.random uniform(shape-[10,5], minval--0.1, maxval-0.1, 
dtype-tf.float32),name-'W') 4 变量 
# 相关 变量 
b = tf.Variable(tf.zeros(shape-[5],dtype-tf.float32),name-'b') 
h = tf.nn.sigmoid(tf.matmul(x,W) + b) # 将 要 执行 的 运算 
# 在 图 中 执行 运算 和 评估 节点 
tf.global variables initializer().run() # 初始 化 变量 
# 执 行 不 带 有 feed_dict 的 运算 
h eval = session.run(h) 
print(h eval) 
# 关 闭会 话 ， 释 放 资 源 


session.close() 


其 实 ， 可 以 发 现 这 里 与 原来 sigmoid 示例 存在 两 个 主要 区 别 。 我 们 以 不 同 的 方式 定义 了 xe IW 
在 直接 指定 一 个 具体 值 并 将 x 定义 为 张 量 ， 而 不 是 使 用 占 位 符 对 象 并 在 计算 图 执行 时 输入 实际 值 。 
另外 ， 正 如 你 看 到 的 ， 我 们 在 session.run(.…) 中 不 会 提供 任何 额外 的 参数 。 但 是 ， 在 缺点 方面 , PR 
在 我 们 无 法 在 session.run(..) 处 向 x 提供 不 同 的 值 并 查看 输出 是 如 何 变 化 的 。 

3. 构建 数据 输入 管道 

输入 管道 是 专门 为 需要 快速 处 理 大 量 数 据 的 “重量 级 ”客户 端 而 设计 的 。 这 实际 上 创建 了 一 个 
保存 数据 的 队列 ， 直 到 等 到 需要 它 的 时 候 为 止 。TensorFlow 还 提供 了 各 种 预 处 理 步骤 (例如 ， 
于 调整 图 像 对 比 度 /亮度 或 者 标准 化 )， 在 将 数据 提供 给 算法 之 前 执行 。 为 了 提高 效率 ， 可 以 让 多 
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个 线程 并 行 读 取 和 处 理 数据 。 


CD 数据 输入 管道 的 结构 
TensorFlow 数据 输入 管道 也 可 以 被 抽象 为 一 个 ETL 过 程 (Extract、Transform、Load) . 


€ Extract: 从 硬盘 上 读 取 数 据 , 可 以 是 本 地 (HDD 或 SSD ), 也 可 以 是 网 盘 ( GCS 或 HDFS ). 

€ Transform: 使 用 CPU 去 解析 、 预 处 理 数 据 ， 比 如 图 像 解 码 、 数 据 增强 、 变 换 (比如 随 
WRI. Mik, MER). ATE (shuffle) 、 分 批量 (batching) . 

€ Load: 将 Transform 后 的 数据 加 载 到 计算 设备 ， 例 如 GPU, TPU 等 设备 。 


这 种 模式 有 效 地 利用 了 CPU， 从 而 让 GPU、TPU 等 设备 专注 于 进行 模型 的 训练 过 程 〈 提 高 
了 设备 的 利用 率 ) 。 
具体 来 看 ， 典 型 的 管道 将 包含 以 下 组 件 : 


文件 名 列表 。 

文件 名 队列 ， 为 输入 (记录 ) 阅读 器 生成 文件 名 。 
用 于 读 取 输入 的 记录 阅读 器 (记录 ) 。 

解码 读 取 记录 的 解码 器 ( 例如 ，JPEG 图 像 解码 ) 。 
预 处 理 步骤 (可 选 ) 。 

一 个 示例 (解码 输入 ) 队列 。 


(2) 数据 输入 管道 (Pipeline) 的 优化 

随 着 新 的 计算 设备 (例如 GPU 和 TPU) 的 应 用 ， 使 得 以 越 来 越 快 的 速度 训练 神经 网 络 成 为 可 
能 , CPU 处 理 方式 很 容易 遇 到 海量 数据 计算 的 瓶颈 .tfdata API 提供 数据 输入 管道 所 需 的 各 种 部 件 ， 
可 以 对 数据 输入 管道 进行 优化 。 

在 执行 一 个 训练 step. 之 前 ， 必 须 先 做 Extract, Transform 训练 数据 ， 然 后 将 其 提供 给 计算 设 
备 上 运行 的 模型 。 在 以 前 ， 当 CPU 在 准备 数据 时 ， 计 算 设备 处 于 闲置 状态 ， 当 计算 设备 执行 训练 
模型 时 ，CPU 又 处 于 闲置 状态 。 因此， 单个 训练 step 的 时 间 等 于 CPU 准备 数据 的 时 间 和 计算 设 
备 执行 训练 step. 时 间 的 总 和 。 

Pipelining 操作 将 训练 step 中 的 数据 准备 和 模型 执行 实现 了 并 行 操作 。 当 计算 设备 在 执行 第 
N 个 训练 step 时 ，CPU 将 为 第 NH 个 训练 step 准备 数据 。 这 样 ， 通 过 两 个 过 程 的 重 阁 ， 单 个 
训练 step 的 时 间 将 取 CPU 准备 数据 的 时 间 和 计算 设备 执行 训练 step 的 时 间 中 的 较 大 值 。 

如 果 我 们 没有 进行 管道 化 (Pipelining) 操作 ，CPU 和 GPU/TPU 中 大 部 分 时 间 处 于 空闲 状态 ， 
如 图 3-10 所 示 。 


time 
3-10 没有 使 用 Pipelining 操作 的 CPU 和 GPU / TPU 处 于 空闲 状态 的 时 间 示 意图 
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我 们 如 果 使 用 Pipelining 操作 ，CPU 和 GPU/TPU 中 处 于 空闲 状态 的 时 间 显 著 减 少 ， 如 图 3-11 
所 示 。 


time 


图 3-11 使 用 Pipelining 操作 的 CPU 和 GPU/TPU 处 于 空闲 状态 的 时 间 示 意图 


有 关 更 多 信息 ， 请 参阅 https://tensorflow.google.cn/guide/performance/datasets#input_ 
pipeline structure 上 有 关 数 据 输 入 管道 的 官方 说 明 。 


(3) 编写 输入 管道 示例 

让 我 们 使 用 TensorFlow 编写 一 个 输入 管道 示例 。 在 这 个 例子 中 , 我 们 有 三 个 CSV 格式 的 文本 
文件 (textl.txt, text2.txt 和 text3.txt)， 每 个 文件 有 5 行 , 每 行 有 10 个 用 逗号 分 隔 的 数字 (示例 行 : 
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0) 。 接 着 ， 我 们 具体 来 看 一 下 。 


更 多 相关 信息 ,请 参阅 https://tensorflow.google.cn/programmers guide/reading data 上 有 关 
导入 数据 的 TensorFlow 官方 说 明 。 


首先 ， 和 以 前 一 样 导 入 一 些 重要 的 库 : 


import tensorflow as tf 


import numpy as np 
接 下 来 ， 我 们 将 定义 计算 图 graph 和 会 话 session 对 象 : 


graph = tf.Graph() 
session = tf.InteractiveSession (graph-graph) 


然后 ， 我 们 将 定义 一 个 文件 名 队列 ， 一 个 包含 文件 名 的 队列 数据 结构 。 这 将 作为 参数 传递 给 
reader〈 后 面 将 被 定义 ) 。 队 列 将 根据 reader 的 请 求生 成 文件 名 ， 以 便 读 者 可 以 使 用 这 些 文件 名 获 
取 文 件 进 而 读 取 数据 : 


filenames = ['test$d.txt'$i for i in range(1,4)] 


filename queue - tf.train.string input producer(filenames, capacity-3, 


shuffle-True,name-'string input producer') 


XE, capacity 是 在 给 定时 间 时 队列 中 保存 的 数据 量 ，shuffle 告诉 队列 是 否 在 发 出 数据 之 前 对 
数据 进行 重新 打 乱 shuffle) 。 


54 | TensorFlow 与 自然 语言 应 用 


TensorFlow 有 几 种 不 同类 型 的 reader (https://tensorflow.google.cn/api_guides/python/io_ops#Readers 
上 提供 了 可 用 reader 列表 ) 。 由 于 我 们 有 一 些 单独 的 文本 文件 ， 其 中 一 行 代表 一 个 数据 点 ， 因 此 ， 
这 里 TextLineReader 是 最 适合 的 : 


reader = tf.TextLineReader() 


在 定义 reader 之 后 ， 我 们 可 以 使 用 read0 函 数 从 文件 中 读 取 数 据 。 它 输出 的 是 “ 键 - 值 " 对 。 该 
键 识别 出 文件 和 该 文件 中 正在 读 取 的 记录 (文本 行 )， 我 们 可 以 省 略 这 个 。 该 值 返回 reader 所 读 取 
行 的 实际 值 : 


key, value = reader.read(filename queue, name-'text read op!) 


下 面 我 们 将 定义 record_defaults， 如 果 发 现存 在 任何 错误 记录 提示 ， 将 给 出 如 下 输出 : 

record defaults- [[-1.0], [-1.0], [-1.0], [-1.0], [-1.0], [-1.0], [-1.0], [-1.0], 
[-1.0], [-1.01] 

现在 ， 我 们 将 读 取 的 文本 行 解码 为 数字 列 ( 就 像 我 们 的 CSV. 文件 一 样 ) 。 为 此 ， 我 们 使 用 
decode_csv0 方 法 。 打 开 文 件 lin, test ， 将 看 到 在 一 行 中 有 10 列 : 

Coll, col2, col3, col4, col5, col6, col7, col8, col9, col10 =tf.decode csv (value, 
record defaults-record defaults) 

然后 ， 我 们 将 连接 这 些 列 来 组 成 单个 张 量 〈 称 之 为 特征 ) ， 这 些 张 量 将 被 传递 给 另 一 个 方法 
t£train.shuffle batch(). tftrain.shuffle batch() 方 法 采用 先前 定义 的 张 量 ， 随 机 填充 张 量 并 输出 一 批 
给 定 的 批量 大 小 : 


features =tf.stack([col1，col2，col3，col4，col15，col16，col7，col8,co19，col10]) 
x = tf.train.shuffle batch([features], batch size-3, capacity-5, 
name-'data batch', min after dequeue-1, 
num threads-1) 


batch size 参数 是 我 们 在 给 定 step 中 采样 的 数据 批量 大 小 ，capacity 是 数据 队列 的 容量 (大 型 
队列 需要 更 多 内 存 ), min_after_dequeue 表示 部 分 元 素 出 队 后 还 留 在 队列 中 的 最 小 元 素数 量 。 最 后 ， 
num threads 定义 了 用 于 生成 一 批 数 据 的 线程 数 。 如 果 管 道中 进行 了 大 量 预 处 理 ， 可 以 增加 这 个 线 
程 数 量 。 此 外 , 如 果 我 们 需要 在 不 进行 shuffle 的 情况 下 读 取 数 据 Ch tftrain.shuffle batch 一 样 ) ， 
就 可 以 调用 t£train.bateh 方法 。 接 着 ， 我 们 将 通过 以 下 命令 来 启动 此 管道 : 


coord = tf.train.Coordinator() 


threads = tf.train.start queue runners (coord-coord, sess-session) 


可 以 将 tttrain.Coordinator0 类 看 成 为 线程 管理 器 。 它 控制 着 各 种 管理 线程 的 机 制 。 我 们 需要 
ftrain.Coordinator0 类 , 因为 输入 管道 产生 许多 线程 来 填充 入 队 队 列 、 出 列队 列 以 及 许多 其 他 任务 。 
接 下 来 ， 我 们 将 使 用 之 前 创建 的 线程 管理 器 去 执行 tftrain.start_queue_runners(..….)。QueueRunner0 
保存 队列 的 入 队 操作 ， 这 些 操作 是 在 定义 输入 管道 时 自动 创建 的 。 因 此 ， 要 填充 已 定义 的 队列 , 我 
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们 需要 调用 t£.train.start queue. runners 函数 来 启动 这 些 队列 运行 的 程序 。 

接 下 来 , 在 指定 任务 完成 之 后 , 我 们 需要 停止 相关 线程 并 将 它们 连接 到 主线 程 ,否则 眼前 的 程 
序 将 无 限期 挂 起 。 这 是 通过 调用 coord.request stop() fll coord.join(threads) 来 实现 的 。 这 个 数据 输入 
管道 与 我 们 的 sigmoid 示例 相 结合 ， 便 能 够 直接 从 文件 中 读 取 数 据 ， 如 下 所 示 : 


import tensorflow as tf 
import numpy as np 
import os 
4 定义 graph 和 session 
graph = tf.Graph() 
session = tf.InteractiveSession (graph-graph) 
Her 创建 数据 输入 管道 HH 
# 文件 名 队列 
filenames = ['test$d.txt'$i for i in range(1,4)] 
filename queue - tf.train.string input producer(filenames, capacity-3, 
shuffle-True,name-'string input producer') 
# 检查 所 有 文件 是 否 存在 
for f in filenames: 
if not tf.gfile.Exists(f): 
raise ValueError('Failed to find file: ' + f) 


else: 
print('File $s found.'$f) 
#reader 接受 一 个 文件 名 队列 和 read () 函数 ，read () 函数 依次 输出 数据 
reader = tf.TextLineReader() 
# 输出 “ 键 - 值 ” 对 
key, value = reader.read(filename queue, name-'text read op') 
+ 如 果 在 读 取 文件 时 遇 到 任何 问题 ， 这 是 返回 的 值 
record defaults- [[-1.0], [-1.0], [-1.0], [-1.0], [-1.0], [-1.0], [71.0], [-1.0], 
[-1.0], [-1:01] 
# 将 读 取 到 的 数值 解码 为 列 
coll, col2, col3, col4, col5, col6, col7, col8, col9, collo = 
tf.decode csv(value, record defaults-record defaults) 


+ 现在 我 们 将 这 些 列 琶 加 在 一 起 ， 形 成 一 个 包含 所 有 列 的 单个 张 量 
features -tf.stack([coll, col2, col3, col4, col5, col6, col7, col8,col9, coll0]) 
+ 输出 x 被 随机 分 配 一 批 batch size 数据 ， 其 中 从 .txt 文件 中 读 取 数据 
x = tf.train.shuffle batch([features], batch size-3, capacity-5, 
name-'data batch',min after dequeue-1,num threads-1) 
*QueueRunner 从 队列 中 检索 数据 ， 我 们 需要 显 式 地 启动 它们 
4 Coordinator 协调 多 个 QueueRunners 
coord = tf.train.Coordinator() 


threads = tf.train.start queue runners (coord-coord, sess-session) 
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# 通过 定义 变量 和 计算 来 构建 计算 图 

W = tf.Variable(tf.random uniform(shape-[10,5], minval--0.1,maxval-0.1, 
dtype-tf.float32),name-'w') # 变量 

# 相关 变量 

b = tf.Variable(tf.zeros(shape-[5],dtype-tf.float32),name-'b') 

h = tf.nn.sigmoid(tf.matmul(x,W) + b) # 要 执行 的 运算 

# 在 图 中 执行 运算 和 评估 各 节点 

tf.global variables initializer().run() # 初始 化 变量 

+ 用 zx 计算 h 并 打印 5 个 步 的 结果 


for step in range(5): 


x eval, h eval = session.run([x,h]) 
print ('========== Step $d ==========' $step) 


print ('Evaluated data (x)') 


print(x eval) 
print('Evaluated data (h)') 
print(h eval) 


print('") 
+ 关闭 coordinator， 否 则 程序 将 无 限期 挂 起 


coord.request stop() 


coord.join (threads) 


session.close() 


3.9.2 在 TensorFlow 中 定义 变量 


变量 在 TensorFlow 中 扮演 着 重要 角色 。 变 量 本 质 上 是 一 个 张 量 ， 具 有 特定 的 形状 (shape》， 
该 形状 〈shape) 用 于 定义 变量 将 具有 多 少 个 维度 以 及 每 个 维度 的 大 小 。 然 而 ， 与 常规 张 量 不 同 ， 
变量 是 可 变 的 ， 也 就 意味 着 变量 的 值 在 定义 后 是 可 以 改变 的 。 这 是 实现 学 习 模型 参数 〈 例 如 ， 神 经 
网 络 权重 值 ) 的 理想 属性 ， 其 中 权重 值 在 每 个 学 习 步 骤 之 后 会 稍 有 变化 。 例 如 ， 如 果 使 用 x = 
给 Variable(0,dtype=tf.int32) 定 义 变 量 ， 则 可 以 使 用 诸如 给 assign(x,x+1) 之 类 的 TensorFlow 运算 来 更 
改 该 变量 的 值 。 但 是 ， 如 果 这 样 定义 张 量 ， 例 如 x = tf.constant(0, dtype = 万 int32)， 就 无 法 更 改 该 
张 量 的 值 ， 它 应 该 保持 0 的 状态 直到 程序 执行 结束 。 

变量 的 创建 很 简单 。 在 我 们 sigmoid 的 示例 中 ， 已 经 创建 了 两 个 变量 W 和 b。 在 创建 变量 时 ， 
有 一 些 事情 非常 重要 ， 在 这 里 列 出 它们 并 在 后 续 中 详细 讨论 : 


Variable shape: 变量 形状 。 

Data type: 数据 类 型 。 

Initial value: 初始 值 。 

Name (optional): 名 称 (TŻ). 


变量 形状 是 [x，y，z，.….] 格 式 的 一 维 向 量 。 列 表 中 的 每 个 值 表 示 相 应 维度 或 轴 的 大 小 。 例 如 ， 
如 果 需 要 具有 50 行 和 10 列 的 二 维 张 量 作为 变量 ， 那 其 形状 将 是 [50,10]。 
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变量 的 维 数 〈 形 状 向 量 的 长 度 ) 在 TensorFlow 中 被 识别 为 张 量 的 秩 。 不 要 把 它 与 矩阵 的 秩 混 


TensorFlow 中 张 量 的 秩 表示 张 量 的 维 数 ; 但 对 于 二 维和 矩阵 来 说 ， 其 秩 等 于 2。 


其 实 , 数据 类 型 在 确定 变量 大 小 方面 起 着 重要 作用 。 有 许多 不 同 的 数据 类 型 ,包括 常用 的 七 bool、 
t£uint8, tffloat32 和 萎 int32《〈 代 码 中 的 字段 类 型 ， 其 意义 基本 上 都 是 通用 的 ， 这 和 我 们 平时 编写 
Java 或 .net 程序 时 用 到 的 布尔 类 型 、 浮 点 类 型 、 整 数 类 型 类 似 ， 而 units 是 8 位 无 符号 整 型 ) 。 每 
种 数据 类 型 都 具有 属于 该 类 型 的 单个 值 所 需 的 位 数 (bit)。 例 如 ,tfuint8 类 型 需要 有 8 位 ,而 tffloat32 
需要 32 位 。 通 常 的 做 法 是 使 用 相同 的 数据 类 型 进行 计算 ， 和 否则 会 导致 数据 类 型 的 不 匹配 。 因 此 ， 
如 果 需 要 对 两 个 具有 不 同 数据 类 型 的 张 量 进行 转换 ， 需 要 使 用 给 cast(.….) 操 作 将 一 个 张 量 显 式 地 转 
换 为 男 一 个 张 量 的 类 型 。 例 如 ， 对 于 具有 tfint32 数据 类 型 的 x 变量， 需要 将 其 转换 为 共 float32 的 
类 型 ，tf.cast(x，dtype=tf.float32) 的 调用 就 是 将 x 变量 转换 为 从 float32 类 型 。 

接 下 来 ， 我 们 需要 对 变量 进行 初始 化 ，TensorFlow 也 提供 了 几 种 不 同 的 初始 化 器 ， 包 括 常 数 
初始 化 器 和 正 态 分 布 初始 化 器 。 TensorFlow 一 些 主要 的 初始 化 器 如 下 所 示 : 


tf.zeros 
tf.constant_initializer 


tfrandom uniform 


tf.truncated normal 

最 后 ， 变 量 的 名 称 (name) 将 作为 一 个 标识 符 (DO ， 使 我 们 能 够 在 图 (Graph) 中 对 该 变量 
进行 识别 。 因 此 ， 如 果 我 们 对 计算 图 进行 可 视 化 操作 ， 那 变量 将 通过 传递 name 关键 字 参 数 的 形式 
进行 显示 。 如 果 未 指定 名 称 ，TensorFlow 将 使 用 默认 命名 方案 。 


Python 变量 tfvariable 是 赋 给 计算 图 的 ， 它 不 是 TensorFlow 变量 命名 的 一 部 分 。 考 虑 下 
面 的 示例 ， 可 以 在 其 中 指定 TensorFlow 变量 : 


a = tf.Variable (tf.zeros ( [5] ) name -'b') 


iX €, TensorFlow 的 图 将 通过 名 称 b 而 不 是 a 来 识别 该 变量 。 


3.9.3 定义 TensorFlow 输出 


TensorFlow 的 输出 通常 是 张 量 ， 可 以 是 输入 或 变量 或 两 者 转换 后 的 结果 。 在 我 们 的 例子 中 ，h 
是 一 个 输出 ， 其 中 h = tf£nnsigmoid (tfmatmul (x, W) + b) 。 当 然 ， 有 时 候 TensorFlow 的 一 个 
输出 也 可 能 变 成 下 一 个 输入 的 内 容 , 依次 输出 下 去 可 以 形成 一 组 链 式 运算 或 操作 , 而 这 里 的 运算 或 
操作 也 不 一 定 必 须 是 TensorFlow 运算 或 操作 ， 还 可 以 使 用 标准 Python 算法 ， 例 如 : 
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x — tf.matmul (w,A) 
y=x+B 
z= tf.add(y,C) 
3.904 定义 TensorFlow 运算 或 操作 


在 https://tensorflow.google.cn/api_docs/python/ 上 查看 TensorFlow API, 你 会 发 现 TensorFlow 有 


大 量 可 


的 运算 或 操作 。 下 面 ， 我 们 将 对 TensorFlow 中 几 个 常见 的 运算 或 操作 进行 解读 。 
比较 运算 


比较 运算 对 于 比较 两 个 张 量 非常 有 用 。 对 于 比较 运算 部 分 的 详细 资料 ， 读 者 可 以 查阅 
https://github.com/tensorflow/docs/tree/master/site/en/api guides/python 中 比较 运算 符 的 详细 内 容 。 当 
然 ， 对 于 比较 运算 工作 原理 的 理解 ， 通 过 代码 层面 可 能 会 更 直观 些 。 这 里 ， 我 们 给 出 示例 张 量 x 


JI y: 


# 假 设 x 和 y 的 取 值 如 下 


x 
ty 
x= 


y- 


(2-D tensor) => [[1,21,[3,41] 
(2-D tensor) => [[4,3], [3,2]] 
tf.constant([[1,2], [3,4]], dtype-tf.int32) 
tf.constant([[4,3], [3,2]], dtype-tf.int32) 


# 检查 两 个 张 量 在 元 素 方面 是 否 相等 ， 并 返回 布尔 类 型 的 张 量 


*x 


xe 


| equal y => [[False,False], [True,False]] 
qual y - tf.equal(x, y, name-None) 


# 检 查 x 在 对 应 元 素 方面 是 否 小 于 y 并 返回 布尔 类 型 的 张 量 


# x less y => [[True,True], [False,False]] 


xd 


ess y = tf.less(x, y, name-None) 


# 检查 x 在 对 应 元 素 方面 是 否 大 于 或 等 于 y 并 返回 布尔 类 型 的 张 量 
* x great equal y => [[False,False], [True, True]] 


X great equal y - tf.greater equal(x, y, name-None) 

# 从 x 和 y 中 选择 元 素 ， 具 体 取决 于 条 件 是 否 满足 (从 x 中 选择 元 素 ) 或 

# 条 件 失败 (从 y 中 选择 元 素 ) 

condition = tf.constant([[True,False], [True,False]],dtype-tf.bool) 
4 x cond y => [[1,3], [3,21] 


X cond y = tf.where(condition, x, y, name-None) 


2 


比较 数学 运算 


TensorFlow 允许 我 们 对 从 简单 到 复杂 的 张 量 执行 数学 运算 。 这 里 我 们 将 讨论 TensorFlow 中 提 


供 的 一 


些 数 学 运算 。 完 整 的 运算 集 可 在 https://github.com/tensorflow/docs/tree/master/site/en/ 


api_guides/python 上 找到 。 
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# 假 设 x 和 Y 的 取 值 如 下 

#x (2-D tensor) => [[1,2], [3,4]] 

#y (2-D tensor) => [[4,3],[3,2]] 

x- tf.constant([[1,2], [3,4]], dtype-tf.float32) 

y = tf.constant([[4,3], [3,2]], dtype-tf.float32) 

+ 以 元 素 方式 增加 两 个 张 量 x 和 Y 

# x add y => [[5,5], [6,6]] 

x add y = tf.add(x, y) 

+ 执行 矩阵 乘法 〈 不 是 元 素 方面 7 

* x mul y => [[10,7], [24,17]] 

x mul y = tf.matmul(x, y) 

# 计算 x 元 素 的 自然 对 数 ， 相 当 于 计算 ln GO 

* log x => [[0,0.6931],[1.0986,1.3863]] 

log x - tf.log(x) 

+ 在 指定 轴 上 执行 归 约 (reduction) 

# x sum 1 => [3,7] 

x sum 1 = tf.reduce sum(x, axis-[1], keepdims-False) 
# x sum 2 => [[4],[6]] 

x sum 2 = tf.reduce sum(x, axis-[0], keepdims-True) 


+ 根据 segment ids 〈 同 一 段 中 具有 相同 ia 的 项 ) 对 张 量 进行 分 段 ， 并 计算 数据 的 分 段 总 和 
data = tf.constant([1,2,3,4,5,6,7,8,9,10], dtype=tf.float32) 
segment ids = tf.constant([0,0,0,1,1,2,2,2,2,2 ], dtype-tf.int32) 
# x seg sum => [6,9,40] 


x seg sum = tf.segment sum(data, segment ids) 
3. 比较 分 散 ( Scatter ) 和 聚合 ( Gather ) 操作 


随 着 人 工 智能 的 迅猛 发 展 ， 尤 其 是 GPU 可 编程 性 能 的 增强 以 及 GPGPU (General Purpose 
Computing on GPU， 在 图 形 处 理 器 上 进行 通用 计算 ) 技术 的 不 断 发 展 ， 相 关 研 究 /技术 人 员 也 迫切 
希望 基于 流 处 理 器 模型 的 GPU 也 可 以 和 CPU 一 样 , 在 支持 流程 分 支 的 同时 , 也 能 够 实现 对 存储 器 
进行 灵活 的 读 写 操作 。 其 实 ，Ian Buck 在 进行 早期 的 GPU 通用 可 编程 技术 研究 时 ， 就 发 现 GPU 完 
成 复杂 计算 任务 时 存在 一 个 关键 性 的 缺陷 ， 那 就 是 缺乏 灵活 的 存储 器 操作 。 所 以 , 他 在 后 来 的 研究 
中 就 增加 了 对 分 散 和 聚合 操作 的 支持 ,但 是 结果 还 是 以 牺牲 一 些 性 能 为 代价 的 情况 下 完成 了 整个 过 
程 。 

在 GPU 中 , CUDA 中 分 散 和 聚合 操作 实现 的 结构 示意 图 与 第 一 向 量 机 中 的 很 相似 , 分 散 允 许 
将 数据 输出 到 非 连续 的 存储 器 地 址 内 ， 而 聚合 则 允许 从 非 连续 的 存储 器 地 址 内 读 取 数 据 。 因 此， 如 
果 认 为 存储 器 (如 DRAM) 是 一 个 二 维 数组 ， 分 散 则 可 以 看 作 利用 数组 下 标 或 索引 将 数据 写 入 数 
组 中 的 任意 位 置 ， 即 afi] = x， 而 聚合 则 可 以 看 作 是 利用 数组 下 标 或 索引 从 数组 中 的 任意 位 置 读 出 
数据 ， 即 X= a[j]。 

下 面 ， 我 们 给 出 CUDA 中 分 散 CScatter) 和 聚合 (Gather) 操作 的 结构 示意 图 ， 如 图 3-12 所 
示 。 其 中 ， 每 个 ALU 可 以 看 作 是 一 个 处 理 核心 ， 通 过 分 散 /聚合 操作 ， 多 个 ALU 之 间 可 以 共享 存 
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储 器 ， 实 现 对 任意 地 址 数据 的 读 写 操作 。 


NIAN | 人 


i | Sj% 


图 3-12 CUDA 中 分 散 〈Scatter) MRA (Gather). 操作 的 结构 示意 图 


分 散 和 聚合 操作 在 矩阵 运算 任务 中 起 着 至 关 重 要 的 作用 ， 因 为 目前 来 看 这 两 种 变 体 在 
TensorFlow 中 是 把 张 量 编 入 索引 的 唯一 方法 。 换 句 话说 ， 不 能 像 在 NumPy 中 那样 访问 TensorFlow 
中 的 张 量 元 素 。 分 散 操作 允许 我 们 将 值 分 配给 指定 张 量 的 特定 索引 ， 而 聚合 操作 允许 我 们 提取 指定 
张 量 的 切片 〈 或 单个 元 素 ) 。 以 下 代码 显示 了 分 散 和 聚合 操作 的 一 些 变 体 : 


# 1-D scatter 操作 
ref = tf.Variable(tf.constant([1,9,3,10,5],dtype-tf.float32), 
name-'scatter update') 
indices - [1,3] 
updates = tf.constant([2,4],dtype-tf.float32) 
tf scatter update- tf.scatter update (ref, indices, updates, use locking-None, 
name-None) 
# n-D scatter 操作 
indices = [[1],[31] 
updates = tf.constant([[1,1,1],[2,2,2]]) 
shape = [4,3] 
tf scatter nd 1 - tf.scatter nd(indices, updates, shape, name-None) 
4 n-D scatter 操作 
indices = [[1,0],[3,1]] #2 x 2 
updates = tf.constant([1,2]) $2x 1 
shape = [4,3] # 2 
tf scatter nd 2 - tf.scatter nd(indices, updates, shape, name-None) 
4 1-D gather 操作 
params = tf.constant([1,2,3,4,5],dtype-tf.fl0oat32) 


indices - [1,4] 
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tf gather- tf.gather(params, indices, validate indices-True,name-None) 
#=> [2,5] 

# n-D gather 操作 

params = 
tf.constant([[0,0,0], [1,1,1], [2,2, 2], [3, 3, 3] ], dtype-tf . £10at 32) 

indices = [[0], [2]] 

tf gather nd - tf.gather nd(params, indices, name-None) 
#=>[[0,0,0], [2, 2,2] 

params = 
tf.constant([[0,0,0], [1,1,1], [2, 2,2], [3, 3, 3] ], dtype-tf . £10at 32) 

indices = [[0,1],[2,2]1] 

tf gather nd 2 = tf.gather nd(params, indices, name-None) 

$-»2[[0,0,0], [2,2,2] 


4. 比较 与 神经 网 络 相关 的 运算 或 操作 

下 面 让 我 们 看 看 几 个 很 有 用 的 神经 网 络 运算 或 操作 ， 这 些 将 在 后 面 的 章节 中 使 用 到 。 这 里 , 我 
们 会 对 简单 元 素 的 转换 进行 讨论 , 也 会 对 一 组 参数 对 于 另 一 个 值 的 偏 导数 的 运算 进行 讨论 , 并 给 出 

-个 简单 的 神经 网 络 实现 例子 。 

(1) 神经 网 络 的 非 线 性 激活 

非 线性 激活 能 够 使 神经 网 络 很 好 地 执行 许多 任务 。 通 常 ， 在 神经 网 络 的 每 一 层 输出 后 (最 后 一 
层 除外 ) 都 会 有 一 个 非 线 性 的 激活 转换 (激活 层 ) 。 非 线性 变换 有 助 于 神经 网 络 学 习 数 据 中 出 现 的 
各 种 非 线性 模式 。 这 对 于 解决 现实 世界 中 复杂 的 问题 非常 有 用 ， 因 为 与 线性 模式 相 比 ， 数 据 通常 具 
有 更 复杂 的 非 线性 模式 。 


让 我 们 通过 一 个 例子 来 观察 一 下 非 线 性 激活 的 重要 性 。 首 先 ， 回 想 一 下 我 们 在 sigmoid 
示例 中 看 到 的 神经 网 络 的 计算 。 如 果 我 们 忽视 b， 那 将 是 这 样 的 : 


h = sigmoid (W*x) 
假设 有 一 个 三 层 神经 网 络 ( W1、W2 和 W3 是 层 的 权重 值 ), 其 中 每 层 都 执行 前 面 的 计算 ; 


我 们 可 以 给 出 完整 计算 : 

h = sigmoid (W3*sigmoid (W2*sigmoid (W1*x))) 

但 是 ， 如 果 我 们 删除 非 线 性 激活 (sigmoid )， 我 们 就 可 以 得 到 : 
(W3 * (W2 * (W1 *x))) = (W3*W2*W1)*x 

因此 ， 在 没有 非 线 性 激活 的 情况 下 ， 可 以 将 三 个 层 降 为 单个 线性 层 。 


如 果 没 有 各 层 之 间 的 非 线 性 激活 , 深度 神经 网 络 就 将 是 一 堆 相 互 全 加 的 线性 层 而 已 , 而 且 一 组 
线性 层 基本 上 可 以 压缩 成 一 个 更 大 的 线性 层 。 综 上 所 述 ,如 果 没 有 非 线 性 激活 , 我 们 就 无 法 创建 具 
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有 多 个 层 的 神经 网 络 。 


现在 ， 我 们 将 列 出 神经 网 络 中 两 种 常用 的 非 线 性 激活 函数 以 及 它们 是 如 何在 TensorFlow 中 实 


现 的 : 


#x 的 Sigmoid 激活 由 1 / (1 exp (-x) ) 给 出 


tf.nn.sigmoid(x,name-None) 
+x 的 ReLU 激活 由 max (0vx) 给 出 


tf.nn.relu(x, name-None) 


外 卷 积 运算 


卷 积 运算 是 一 种 广泛 使 用 的 信号 处 理 技术 。 对 于 图 像 ， 卷 积 运算 可 以 给 出 不 同 的 图 像 效 果 。 这 
里 ， 图 3-13 给 出 了 使 用 卷 积 进行 边缘 检测 〈 包 括 横向 边缘 检测 和 纵向 边缘 检测 ) 的 示例 。 我 们 可 
以 通过 在 图 像 项 部 移动 卷 积 过 滤器 以 便 在 每 个 位 置 产生 不 同 的 输出 来 实现 边缘 检测 ， 如 图 3-14 所 
示 ( 在 本 书 第 5 章 介 绍 卷 积 神经 网 络 时 会 详细 解读 卷 积 运算 的 工作 原理 )。 具 体 来 说 , 在 每 个 位 置 ， 


我 们 使 用 与 卷 积 过 滤器 重 秋 的 图 像 块 (与 卷 积 过 滤器 相同 的 大 小 ) 对 卷 积 过 滤器 


素 乘 法 ， 并 获取 乘法 的 总 和 。 


一 1 
* —1 
-1 


图 3-13 利用 卷 积 运算 在 图 像 中 进行 边缘 检测 示意 图 


bh 的 元 素 进行 逐 元 


源 自 https://en.wikipedia.org/wiki/Kernel (image processing). 


以 下 是 卷 积 运算 的 实现 : 


x = tf.constant( 
LE 
1], [2], 


[ 3], [4 
[4], [3]; 

[ 

[ 


2], [1 
7], [8 
6], [5 


5], [6], 
8], [7]; 


[ [ 11 
[ [ 11 
[ [ 11, 
[ [ 11 

Jis 

dtype=tf.float32) 
x filter = tf.constant( 
[ 
[ 
[[0.5]],[[1]] 
E 


[ 
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[[0.5]], [E111 


dtype-tf.float32) 

x stride = [1,1,1,1] 

x padding = 'VALID' 

Xx conv = tf.nn.conv2d( 

input-x, filter-x filter, 
sSstrides-x stride, padding-x padding 


) 


这 里 ， 对 于 萎 conv2d(.…) 方 法 中 涉及 的 input ~ filter 和 stride 等 参数 格式 而 言 ，TensorFlow 对 
它们 的 要 求 是 很 精确 的 ,下面 我 们 将 对 这 些 参数 (input、 filter, strides, padding) 做 进一步 的 解释 。 


€ {A (input): 通常 是 四 维 张 量 ， 其 尺寸 应 按 [batch_size，height，width，channels] 排 序 。 
* batch size: 这 是 一 批 数据 中 的 数据 量 ( 例如 ， 输 入 的 图 像 和 单词 等 ) 。 我 们 通常 按 
批量 处 理 数据 , 因为 模型 可 以 使 用 大 型 数据 集 进行 深入 学 习 。 在 给 定 的 训练 步骤 ( step ) 
中 ,我们 随机 抽样 一 小 部 分 可 以 大 致 代 表 完 整 的 数据 集 的 数据 ， 然 后 重复 足够 多 次 该 
操作 ， 我 们 便 可 以 很 好 地 逼近 这 个 完整 的 数据 集 。 此 batch size 参数 与 我 们 在 
TensorFlow 输入 管道 示例 中 讨论 的 参数 相同 。 
* heightand width: 这 是 输入 的 高 度 和 宽度 。 
* channels: 这 是 输入 的 深度 (例如 ， 对 于 RGB 图 像 ， 将 为 3 通道 ) 。 
© ÈZ (filte): 这 是 一 个 四 维 张 量 , 表示 卷 积 运算 的 卷 积 窗口 。 过 滤器 尺寸 应 为 [height， 
width, in channels, out channels]. 
* heightand width: 这 是 滤 镜 的 高 度 和 宽度 (通常 小 于 输入 的 高 度 和 宽度 ) 。 
* in channels: 这 是 图 层 输 入 的 通道 数 。 
* out channels: 这 是 在 图 层 输出 中 生成 的 通道 数 。 
€ JU (strides): 这 是 一 个 包含 四 个 元 素 的 列表 ， 具 体 为 [batch stride, height stride, 
width stride, channels stride]. 
€ 填充 (padding) : 这 里 可 以 选择 [SAME'，'VALID'] 中 的 任何 一 个 选项 。 它 能 够 决定 如 何 
处 理 输入 边界 附近 的 卷 积 运算 。VALID 操作 是 在 没有 填充 的 情况 下 执行 卷 积 。 如 果 我 们 
用 大 小 为 h 的 卷 积 窗口 、 卷 积 长 度 为 n 的 输入 ， 这 将 给 出 输出 的 尺寸 (或 大 小 ) 。 输 出 
尺寸 的 减 小 会 严重 限制 神经 网 络 的 深度 。SAME 将 零 填 充 到 边界 ， 使 输出 具有 与 输入 相 
同 的 高 度 和 宽度 。 
为 了 更 好 地 了 解 过 滤器 大 小 、 步 幅 和 填充 是 什么 ， 请 参见 图 3-14 (我 们 在 本 书 第 5 章 介绍 卷 
积 神经 网 络 时 做 详细 解读 ) 。 
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1x1 + 0.52 + 
.3875 


Moving tha iler vi a sdfde 1 kaing conveldien 


SE 


Moving the filter with a stride 2 during 


convoluton 


图 3-14 卷 积 网 络 运算 示意 图 


@ 池 化 操作 
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池 化 运算 与 卷 积 运算 的 行为 类 似 , 但 最 终 输 出 是 不 同 的 。 我 们 这 里 选取 的 是 该 位 置 中 图 像 patch 
的 最 大 元 素 ， 而 不 是 输出 过 滤器 和 图 像 patch 中 按 元 素 相 乘 得 到 的 总 和 我们 在 在 本 书 第 5 章 介绍 
卷 积 神经 网 络 中 会 做 详细 解读 ) ， 如 图 3-15 所 示 。 


x = tf.constant( 


[t 
[[1], E21 [3], E41], 
[L4], E31, [2]; E11]; 
[[5], [6], E71, E81], 
LE81 E71, E61, E51] 
11, 


dtype-tf.float32) 


x ksize = [1,2,2,1] 
x stride = [1,2,2,1] 
x padding = 'VALID' 


x pool - tf.nn.max pool( 


代码 运行 后 返 


value-x, ksize-x ksize, 
strides-x stride, padding-x padding 


3-15 ”最 大 池 化 运算 示意 图 


[rr 


的 结果 如 下 完整 代码 和 结果 ， 读 者 可 以 查看 代码 文件 中 的 “二 维 操作 (2D 
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卷 积 和 2D 最 大 池 化 ) ”部 分 ) : 


LECE 4-] 
L4. TI 
[[ 8.] 

[ 8.111] 


图 定义 损失 

为 了 让 神经 网 络 模型 能 够 学 习 到 有 用 的 东西 , 我 们 需要 定义 一 个 损失 函数 。 这 里 有 几 种 可 以 自 
动 计算 TensorFlow 中 损失 的 函数 。 其 中 ， 人 fnn.12 los 是 均 方 误差 损失 函数 ， 
tfnn.softmax cross entropy with logits v2 是 交叉 炉 损失 函数 。 交 叉 炉 损失 函数 在 分 类 任务 中 能 
使 模型 表现 更 佳 。 这 里 涉及 均 方 误差 损失 函数 和 交叉 焙 损 失 函 数 的 代码 如 下 

x = tf.constant([[2,4], [6,8] ], dtype-tf.f10at32) 

x hat = tf.constant([[1,2], [3,4] ], dt ype-t£ . £10at 32) 

$ MSE = (1**2 + 2**2 + 3**2 + 4**2)/2 = 15 

MSE = tf.nn.1l2 loss(x-x hat) 

+ 神经 网 络 中 用 于 优化 网 络 的 常见 损失 函数 

+ 使 用 logits《〈 最 后 一 层 的 归 一 输出 ) 代 蔡 输出 来 计算 交叉 科 , 会 使 数值 获得 的 更 加 稳定 

y = tf.constant([[1,0], [0,1] ], dtype-tf.f10at32) 

y hat = tf.constant([[3,1], [2,5] ], dtype-tf.f10at32) 

+ 此 函数 并 不 能 平均 所 有 数据 点 的 交叉 焙 损 失 ， 我 们 需要 使 用 reduce_mean 函数 手动 实现 这 一 点 

CE = tf.reduce mean(tf.nn.softmax cross entropy with logits v2(logits-y hat, 
labels-y)) 


图 神经 网 络 的 优化 

在 定义 了 神经 网 络 的 损失 函数 之 后 , 我 们 的 目标 是 随 着 时 间 的 推移 尽量 减少 这 种 损失 , 这 个 过 
程 就 是 常 说 的 模型 优化 工作 。 换 言 之 , 优化 器 的 目标 是 找到 为 所 有 输入 提供 最 小 损失 的 神经 网 络 参 
数 〈 权 重 值 和 偏差 ) 。TensorFlow 为 我 们 提供 了 几 种 不 同 的 优化 器 ， 因 此 我 们 不 需要 从 头 开始 实 
现 相关 模型 。 

图 3-16 说 明了 一 个 简单 的 优化 问题 ， 并 显示 了 优化 是 如 何 随时 间 变 化 的 。 该 曲线 可 以 想象 为 
损失 曲线 (对 于 高 维 空间 的 情况 ， 我 们 称 之 为 损失 面 )， 其 中 x 可 以 被 认为 是 神经 网 络 的 参数 〈 在 
这 种 情况 下 ， 是 一 个 单一 权重 值 的 神经 网 络 ) ，y 可 以 被 认为 是 损失 。 我 们 初步 估计 起 始点 是 x=2 
位 置 。 从 这 一 点 开始 ， 我 们 使 用 优化 器 来 实现 在 x=0 处 得 到 最 小 的 y GRR) 。 然 而 ， 在 实际 问题 
中 ， 损 失 表 面 不 会 像 图 3-16 中 所 示 的 这 么 简单 ， 它 会 更 加 复杂 。 
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优化 yx 2 


图 3-16 ”优化 过 程 示意 图 


在 此 示例 中 ， 我 们 使 用 的 是 常见 的 梯度 下 降 优 化 法 : GradientDescentOptimizer. learning rate 
参数 表示 在 最 小 化 方向 上 的 步 长 〈 图 3-16 中 两 个 圆 点 之 间 的 距离 ) : 


# 优 化 器 起 到 调整 神经 网 络 参数 的 作用 ， 以 便 最 小 化 工作 任务 中 的 错误 

tf x = tf.Variable (tf.constant (2.0,dtype-tf.float32),name-'x') 

tf y = tf x**2 

minimize op = tf.train.GradientDescentOptimizer(learning rate-0.1). 


minimize(tf y) 


完整 代码 详 见 代码 文件 3 tensorflow introduction.ipynb 中 随机 优化 〈Stochastic Optimization) 
部 分 。 执 行 该 部 分 代码 后 ， 除 了 会 得 到 图 3-16 之 外 ， 还 会 得 到 如 下 结果 : 


第 工 趟 步 长 上 x: 1.28 , y: 2.5600002 

第 2 个 步 长 上 ,x: 1.0239999 , y: 1.6384 

第 3 个 步 长 上 ,x: 0.8191999 , y: 1.0485759 
第 4 个 步 长 上 ,x: 0.6553599 , y: 0.6710885 


从 上 面 的 代码 运行 结果 来 看 ， 显 然 ， 当 我 们 每 次 调用 session.run(minimize_op) 执 行 损失 最 小 化 
运算 时 ， 将 会 接近 tt x 值 ， 进 而 可 以 得 到 最 小 的 ty 值 。 

加 控制 流 操作 

顾名思义 ， 控 制 流 操作 控制 图 中 的 执行 顺序 。 例 如 ， 假 设 我 们 需要 按 以 下 顺序 执行 计算 : 


x = xt5 


Cs "2 


实际 上 ， 如 果 x = 2， 我 们 应 该 得 到 z = 14。 下 面 ， 让 我 们 尝试 以 一 种 简单 的 方法 来 实现 这 一 


session = tf.InteractiveSession() 

x = tf.Variable(tf.constant(2.0), name-'x') 
x assign op - tf.assign(x, x*5) 

ZoU*2 

tf.global variables initializer().run() 
print('z-',session.run(z)) 


print('x-',session.run(x)) 
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session.close() 


我 们 期 望 的 输出 结果 是 x= 7 和 z= 14， 而 在 TensorFlow 中 ， 上 面 的 代码 运行 结果 却 是 x= 2 
和 z= 14。 引 起 这 种 错误 的 原因 是 ，TensorFlow 不 关心 对 象 的 执行 顺序 ， 除 非 我 们 在 程序 中 给 出 明 
确 的 执行 顺序 。 我 们 本 部 分 讨论 的 控制 流 操作 ， 就 可 以 实现 执行 指定 顺序 的 操作 。 为 了 得 到 期 望 的 
运行 结果 (x=7 和 z=14) ， 我 们 需要 对 上 述 代 码 进行 调整 ， 具 体 如 下 : 


session = tf.InteractiveSession() 

x = tf.Variable(tf.constant(2.0), name-'x') 

with tf.control dependencies([tf.assign(x, x*5)]): 
z = x*2 

tf.global variables initializer().run() 

print('z-',session.run(z)) 

print('x-',session.run(x)) 


session.close() 


这 样 一 来 , 我 们 就 可 以 得 到 想 要 的 结果 (x=7 和 z=14) 了 。 这 里 , tf.control dependencies C...) 
方法 是 确保 在 执行 髋 套 操作 之 前 将 会 优先 执行 参数 传递 给 它 的 运算 操作 。 读 者 也 可 以 在 代码 文件 
“调用 tfcontrol dependencies(.…) 方 法 ”部 分 执行 这 些 代码 并 查看 运行 结果 。 


3.10 ”变量 作用 域 机 制 


3.10.1 基本 原理 


目前 为 止 ， 我们 已 经 对 TensorFlow 架构 和 TensorFlow 客户 端的 实现 有 了 基本 的 认识 。 但 是 ， 
在 深度 学 习 过 程 中 ， 一 方面 ， 我 们 需要 减少 训练 参数 的 个 数 〈 比 如 CNN 和 LSTM 模型 ) 或 是 面 对 
多 机 多 卡 并 行 化 训练 大 数据 大 模型 (比如 数据 并 行 化 ) 等 情况 ; 另 一 方面 ， 当 我 们 的 深度 学 习 模 型 
变 得 异常 复杂 的 时 候 , 往往 存在 大 量 的 变量 和 调用 方法 , 如 何 有 效 地 维护 这 些 变量 名 称 和 方法 名 称 
的 唯一 性 ( 即 不 重复 ) ， 同 时 又 能 维护 好 一 个 条 理 清 晰 的 图 (Graph) 就 变 得 非常 重要 了 。 这 时 ， 
变量 共享 机 制 就 变 得 非常 重要 。 比 如 ， 我 们 构建 CNN、LSTM 等 模型 时 ， 需 要 使 用 很 多 变量 集 去 
验证 权重 值 (Weight) 和 偏差 (Bias) 等 训练 参数 ， 非 常 希望 在 输入 不 同 的 数据 时 这 些 参数 是 可 以 
共享 的 〈 本 书 5.3.4 小 节 “ 参 数 共 享 机 制 ” 部 分 会 进行 详细 解读 ) 。 过 去 ， 我 们 创建 一 个 全 局 变量 
就 可 以 使 用 了 ， 但 在 深度 学 习 中 则 不 可 以 ， 不 方便 管理 而 且 使 代码 的 封装 性 受到 极 大 影响 。 所 以 ， 
TensorFlow 提供 了 一 种 变量 管理 方法 : 变量 作用 域 机 制 ， 以 此 解决 上 面 出 现 的 问题 。 

关于 变量 作用 域 机 制 ， 有 的 文档 也 叫 共 享 变量 机 制 ,， 根据 笔者 查阅 的 文献 资料 ， 大 部 分 文章 的 
参考 资料 来 自 于 TensorFlow 官方 说 明 ( 详 见 https://tensorflow.google.cn/guide/variables ) . TensorFlow 
中 是 通过 调用 四 个 函数 来 进行 变量 作用 域 共 享 的 ， 这 四 个 函数 是 tf.Variable(<variable_name>), 
tfget variable(-variable name»). tfname scope(<scope name>) 和 tf.variable_scope(<scope_name>)。 


下 面 ， 我 们 具体 来 看 一 下 这 几 个 函数 。 
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如 果 使 用 Variable, 那么 每 次 都 会 新 建 变量 , 但 是 大 多 数 时 候 我 们 是 希望 一 些 变量 可 以 重用 的 ， 
所 以 就 用 到 了 get variable0。get_variable0) 会 去 搜索 变量 名 称 ， 搜 索 结果 如 果 没 有 就 新 建 变量 ， 如 
果 有 就 直接 使 用 该 变量 。 既 然 用 到 变量 名 称 ， 这 就 会 涉及 名 称 域 的 概念 。 通 过 不 同 的 域 来 对 变量 名 
称 加 以 区 分 , 因为 如 果 让 我 们 给 所 有 变量 都 直接 取 不 同名 字 其 实 是 非常 辛苦 的 且 没 必要 , 这 就 是 为 
什么 会 用 到 作用 域 (Scope KRES T name scope 主要 用 于 图 (Graph) 中 的 各 种 运算 , variable scope 
可 以 通过 设置 reuse 标志 以 及 初始 化 方式 来 影响 作用 域 中 的 变量 。 当 然 对 我 们 而 言 , 还 有 一 个 更 直 
观 的 感受 就 是 : 在 使 用 tensorboard 可 视 化 的 时 候 用 名 字 作 用 域 进行 封装 后 会 更 清晰 。 


3.10.2 ”通过 示例 解读 


假设 我 们 需要 一 个 执行 某 种 计算 的 函数 ， 给 定 w， 需 要 计算 x* won y ** 2。 让 我 们 编写 一 个 
TensorFlow 客户 端 : 


import tensorflow as tf 

session = tf.InteractiveSession() 

def very simple computation (w) : 
x-tf.Variable(tf.constant(5.0, shape-None, dtype-tf.float32),name-'x') 
y-7tf.Variable(tf.constant(2.0, shape-None, dtype-tf.float32),name-'y') 
2 = g + y**2 
return z 


这 里 ， 为 了 得 到 想 要 的 结果 ， 我 们 可 以 调用 session.run (very simple computation (2) ) 函数 
(当然 是 在 调用 给 global_variables_initializer0.run0 函 数 之 后 ) 。 实 际 上 ,每 次 调用 这 个 函数 时 都 会 
创建 两 个 TensorFlow 变量 。 在 多 次 调用 该 方法 (在 面向 对 象 程序 设计 中 把 封装 的 函数 也 称 为 方法 ) 
时 ， 图 (Graph) 中 x 和 y 变量 不 会 被 替换 ， 相 反 ， 将 会 保留 这 些 旧 变量 ， 并 在 图 (Graph) 中 创建 
新 的 变量 ， 直 到 内 存 不 足 为 止 。 不 管 如 何 ， 最 终 的 结果 是 正确 的 。 为 了 更 好 地 验证 这 个 情况 ， 我 们 
在 for 循环 中 运行 session.run(very_simple_computation(2)) 方 法 , 并 将 变量 名 称 也 打印 出 来 , 循环 10 
次 的 输出 结果 如 下 (完整 的 代码 请 在 ch3 文件 夹 中 的 3_tensorflow_introduction.ipynb 文件 “变量 作 
用 域 机 制 (Variable Scoping) ”部 分 查看 ) : 


14.0 

[ x50, es ue dE 0, WY DD 35:250, MY 250T,. “ae 3200, ty 3:0*, "mA 
"y A:0t, RO ty 520*, "x )6:0*, "y-6s0*, "x 7:0', "y 7:0', *x 8:0', "y 8:0", 
'x 9:0!', 'y 9:0', 'x 10:0', 'y 10:0'] 


每 次 运行 该 函数 时 都 会 创建 一 对 变量 。 如 果 运 行 这 个 函数 100 次 , 那么 计算 图 中 将 有 198 个 过 
时 变量 (99x 变量 和 99y 变量 ) 。 

作用 域 允 许 我 们 重复 使 用 变量 ， 而 不 是 每 次 调用 函数 时 都 创建 一 个 新 的 变量 。 我 们 现在 为 上 面 
的 例子 添加 变量 可 复 用 性 的 操作 ， 将 代码 更 改 为 以 下 内 容 : 


def not so simple computation(w): 
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x — tf.get variable('x', initializer-tf.constant (5.0, 
shape-None,dtype-tf.float32)) 
y = tf.get variable('y', initializer-tf.constant (2.0, 
shape-None,dtype-tf.float32)) 
Zz = x*w + y**2 
return z 
def another not so simple computation (w) : 
x = tf.get variable('x', initializer-tf.constant (5.0, 
shape-None,dtype-tf.float32)) 
y = tf.get variable('y', initializer-tf.constant (2.0, 
shape-None,dtype-tf.float32)) 
z = w*x*y 
return z 
# 这 是 第 一 次 调用 ， 因 此 将 使 用 以 下 名 称 创建 变量 
# x => scopeA/x, y => scopeA/y 
with tf.variable scope ('scopeA'): 
zl = not so simple computation(tf.constant(1.0, dtype-tf.float32)) 
# 我 们 重复 使 用 已 创建 的 scopeA/x 和 scopea/y 
with tf.variable scope('scopeA',reuse-True): 
z2 = another not so simple computation (zl) 
# 由 于 这 是 第 一 次 调用 ， 因 此 将 使 用 以 下 名 称 创建 变量 : x => scopeB/x. y => scopeB/y 
with tf.variable scope('scopeB'): 
al - not so simple computation(tf.constant(1.0, dtype-tf.float32)) 
# 我 们 重复 使 用 已 创建 的 scopeB/x 和 scopeB/y 


with tf.variable scope('scopeB',reuse-True): 
a2 = another not so simple computation (al) 

# 假设 我 们 想 再 次 重复 使 用 “scopeA”， 因 为 已 经 创建 了 变量 ， 

# 所 以 我 们 应 该 在 调用 时 将 “reuse” 参 数 设置 为 True 

with tf.variable scope('scopeA',reuse-True): 
zzl = not so simple computation(tf.constant(1.0, dtype-tf.float32)) 
zz2 = another not so simple computation (zl) 


在 这 个 例子 中 ， 如 果 执 行 session rn ([zl. z2, al. a2, zzl, zz2p 操作 ， 就 应 看 
Z1,z2.a1.a2,zzl,zz2 的 值 按 顺序 为 9.0,90.0,9.0，90.0,9.0,90.0 值 。 现 在 ， 如 果 打印 变量 ， 应 看 到 
四 个 不 同 的 变量 : scopeA /x、scopeA /y、scopeB /x 和 scopeB /y。 我 们 现在 可 以 在 循环 中 多 次 运 
行 它 ， 而 不 必 担 心 创建 元 余 变量 和 内 存 不 足 。 

现在 你 可 能 想 知 道 , 为 什么 我 们 不 能 在 代码 的 开头 创建 这 四 个 变量 并 在 后 面 的 方法 中 使 用 它们 。 
如 果 这 样 做 ， 就 会 破坏 代码 的 封装 性 ， 因 为 这 样 是 在 明显 地 依赖 于 代码 之 外 的 内 容 。 

最 后 ， 作 用 域 支持 了 可 复 用 性 ， 同 时 也 保留 了 代码 的 封装 性 。 此 外 ， 作 用 域 使 代码 流 更 直观 ， 
减少 了 错误 的 可 能 性 ， 因 为 我 们 通过 作用 域 和 名 称 显 式 地 获取 变量 ， 而 不 是 使 用 TensorFlow 变量 
分 配 的 Python 变量 。 


该 会 
应 该 只 


^ 
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3.11 ”实现 一 个 神经 网 络 


目前 ， 我 们 已 经 对 TensorFlow 的 架构 体系 和 作用 域 机 制 有 了 大 体 的 认 知 
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， 接 下 来 ， 我 们 将 实 


现 一 个 稍微 复杂 的 模型 , 那 就 是 完全 连接 的 神经 网 络 模型 。 这 里 使 用 的 数据 集 是 在 深度 学 习 过 程 中 


都 经 常 使 用 的 MNIST 数据 集 〈 详 见 http://yann.lecun.com/exdb/mnist/) ， 利 
现 对 数字 进行 分 类 。 


神经 网 络 模型 能 够 实 


由 于 这 是 我 们 的 第 一 个 神经 网 络 示例 ， 因 此, 我 们 将 逐步 介绍 其 中 的 关 鲁 


部 分 。 如 果 要 了 解 程 


序 从 头 到 尾 的 运行 情况 ,读者 可 以 在 ch3 文件 夹 中 的 3 tensorflow introduction.ipynb 文件 “MNIST 


数字 识别 分 类 ”部 分 自行 查验 。 


3.11.1 数据 准备 


首先 , 我 们 需要 调用 maybe_download(..…) 函 数 来 下 载 数据 集 ， 并 调用 read_mnist(.…) 函 数 对 其 进 


行 预 处 理 。 这 里 ，read_mnist(..) 函 数 执行 以 下 两 个 主要 步 又; 


o 读 取 数据 集 的 字 节 流 并 将 其 形成 适当 的 NUPYP.NDARRY 对 象 。 将 图 像 标准 化 为 零 均 值 


和 单位 方差 。 


def read mnist(fname img, fname 1bl): 


print ('\nReading files $s and $s'* (fname img, fname 1b1)) 


with gzip.open(fname img) as fimg: 


magic, num, rows, cols = struct.unpack("»IIII", fimg.read(16)) 


print (num, rows, cols) 


img = (np.frombuffer(fimg.read(num*rows*cols), dtype-np.uint8). 


reshape (num, rows * cols)).astype(np.float32) 


print('(Images) Returned a tensor of shape ',img. 


# 对 图 像 进行 标准 化 处 理 

img = (img - np.mean (img))/np.std(img) 
with gzip.open(fname lbl) as flbl: 

*flbl.read (8) 读 取 最 多 8 个 字 节 


magic, num = struct.unpack("»II", flbl.read(8)) 


shape) 


lbl - np.frombuffer(flbl.read(num), dtype-np.int8) 


print('(Labels) Returned a tensor of shape: $s'$1bl.shape) 


print('Sample labels: ',1b1[:10]) 


return img, lbl 


3.11.2 EX TensorFlow 计算 图 


为 了 定义 TensorFlow 计算 图 ， 我 们 首先 为 输入 图 像 Ctf. input). 和 其 对 应 标签 (tf lab). 定义 占 


位 符 : 
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+ 定义 输入 和 输出 

tf inputs = tf.placeholder(shape-[batch size, input size], dtype-tf.float32, 
name = 'inputs') 

tf labels = tf.placeholder(shape-[batch size, num labels], dtype-tf.float32, 


name = 'labels') 


接 下 来 ， 编 写 一 个 Python 函数 ， 它 将 首次 创建 变量 。 需 要 说 明 的 是 ， 我 们 使 用 作用 域 来 确保 
变量 的 可 重用 性 ， 并 确保 变量 被 正确 命名 : 
# 定义 TensorFlow 相关 变量 


def define net parameters(): 


with tf.variable scope('layerl'): 
tf.get variable(WEIGHTS STRING, shape-[input size,500], 
initializer-tf.random normal initializer(0,0.02)) 
tf.get variable(BIAS STRING, shape-[500], 


initializer-tf.random uniform initializer(0,0.01)) 


with tf.variable scope('layer2'): 
tf.get variable(WEIGHTS STRING, shape-[500,250], 
initializer-tf.random normal initializer(0,0.02)) 
tf.get variable(BIAS STRING, shape-[250], 


initializer-tf.random uniform initializer(0,0.01)) 


with tf.variable scope('output'): 
tf.get variable(WEIGHTS STRING, shape-[250,10], 
initializer-tf.random normal initializer(0,0.02)) 
tf.get variable(BIAS STRING, shape-[10], 


initializer-tf.random uniform initializer(0,0.01)) 


下 面 ， 我 们 将 定义 神经 网 络 的 推理 过 程 。 这 里 需要 说 明 一 点 ， 就 是 与 没有 使 用 作用 域 的 变量 相 
比 ， 作 用 域 为 函数 中 的 代码 提供 了 非常 直观 的 流程 。 这 里 的 神经 网 络 有 三 层 ， 具 体 如 下 : 

e ”具有 ReLU 激活 的 完全 连接 层 (第 1 层 ) 。 

e 具有 ReLU 激活 的 完全 连接 层 (第 2 层 ) 。 

@ ”完全 连接 的 softmax Æ (输出 ) 。 

通过 作用 域 , 我 们 将 每 个 层 的 变量 (权重 值 和 偏差 ) 命名 为 layerl / weight. layer / bias. layer2 
/ weight, layer2 / bias, output / weights 和 output / bias. 在 下 面 的 代码 中 ,它们 都 具有 相同 的 名 称 ， 
但 作用 域 是 不 同 的 ; 


# 在 神经 网 络 中 定义 根据 输入 进行 逻辑 推理 的 计算 过 程 
#1ogit 是 将 softmax 应 用 到 最 终 输 出 之 前 的 评估 模型 


def inference (x): 
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* calculations for layer 1 

with tf.variable scope('layerl',reuse-True): 
w,b-tf.get variable(WEIGHTS STRING), tf.get variable(BIAS STRING) 
tf hl = tf.nn.relu(tf.matmul(x,w) + b, name = 'hiddenl') 


* calculations for layer 2 

with tf.variable scope('layer2',reuse-True): 
w,b-tf.get variable(WEIGHTS STRING), tf.get variable(BIAS STRING) 
tf h2 = tf.nn.relu(tf.matmul(tf hl,w) + b, name = 'hiddenl') 


# calculations for output layer 
with tf.variable scope ('output',reuse-True): 
w,b = tf.get variable(WEIGHTS STRING), 
tf.get variable(BIAS STRING) 
tf logits = tf.nn.bias add(tf.matmul(tf h2,w), b, name = 'logits') 


return tf logits 
现在 , 我 们 将 定义 一 个 损失 函数 并 将 损失 进行 最 小 化 操作 。 损失 最 小 化 操作 是 通过 在 最 小 化 损 
失 方向 上 对 神经 网 络 参数 进行 微 移 来 开展 的 。TensorFlow 中 提供 了 多 种 优化 器 ， 我 们 在 这 里 将 使 
用 MomentumOptimizer， 它 提供 了 比 GradientDescentOptimizer 更 好 的 最 终 精 度 和 收敛 性 : 


# 定义 损失 函数 

tf loss - 
tf.reduce mean(tf.nn.softmax cross entropy with logits v2(logits-inference(tf _ 
inputs), labels-tf labels)) 


# 定义 损失 优化 函数 
tf loss minimize = tf.train.MomentumOptimizer (momentum-0.9, 


learning rate-0.01).minimize(tf loss) 


最 后 , 我 们 将 定义 一 个 操作 来 检索 给 定 批量 输入 所 预测 的 softmax 概率 。 这 个 预测 值 将 反 过 来 用 于 计算 
神经 网 络 的 准确 性 : 


# 定义 预测 


tf predictions = tf.nn.softmax(inference(tf inputs)) 


3.11.3 ”运行 神经 网 络 


现在 , 我 们 实现 了 运行 神经 网 络 所 需要 的 所 有 基本 操作 ， 可 以 对 它 进 行 检查 , 看 它 是 否 有 能 力 
学 习 对 图 像 中 的 数字 进行 正确 分 类 : 
for epoch in range (NUM EPOCHS): 


train loss = [] 
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# 训练 阶段 

for step in range(train inputs.shape[0]//batch size): 
# Creating one-hot encoded labels with labels 
# One-hot encoding dight 3 for 10-class MNIST data set will result in 
# [0,0,0,1,0,0,0,0,0,0] 
labels one hot - np.zeros((batch size, num labels),dtype-np.float32) 
labels one hot[np.arange(batch size),train labels[step*batch size: 

(step*1l)*batch size]] = 1.0 


# 运行 优化 程序 

loss, -session.run([tf loss,tf loss minimize],feed dict-(tf inputs: 
train inputs[step*batch size: (step*l)*batch size,:], tf labels: 
labels one hot) ) 


train loss.append (loss) 


test accuracy - [] 
# 测试 阶段 
for step in range(test inputs.shape[0]//batch size): 
test predictions - session.run(tf predictions,feed dict-(tf inputs: 
test inputs[step*batch size: (step*l)*batch size,:]]) 
batch test accuracy - accuracy(test predictions, 
test labels[step*batch size: (step*l)*batch size]) 
test accuracy.append(batch test accuracy) 


print('Average train loss for the $d 
epoch: $.3fNn'*(epoch*l,np.mean(train loss))) 
train loss over time.append(np.mean(train loss)) 
print ('\tAverage test accuracy for the $d 
epoch: $.2fMn'$(epoch*l,np.mean(test accuracy)*100.0)) 


test accuracy over time.append(np.mean(test accuracy)*100) 
在 这 段 代码 中 ，accuracy(test_prediction，test_tags) 是 一 个 函数 ， 它 接受 一 些 预 测 和 标签 作为 输 


入 ， 并 提供 准确 性 (有 多 少 预测 与 实际 标签 匹配 ) 。 最 终 ， 我 们 会 得 到 类 似 于 图 3-17 所 示 的 示意 
图 ， 从 运行 的 结果 来 看 ， 该 模型 表现 良好 ， 读 者 也 可 以 自行 运行 代码 进行 查验 。 
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训练 数据 的 损失 随时 间 的 变化 测试 数据 的 准确 率 随时 间 的 变化 


测试 数据 的 准确 率 


训练 数据 的 平均 损失 _ 


图 3-17 MNIST 数字 分 类 任务 的 训练 损失 和 测试 准确 性 示意 图 
3.12 总 结 


在 本 章 中 ， 我 们 通过 一 些 示 例 对 算法 的 主要 底层 平台 (TensorFlow) 有 了 大 体 上 的 认 知 ， 从 而 
迈 出 了 解决 NLP 任务 的 第 一 步 。 

首先 , 我 们 讨论 了 TensorFlow 的 概念 、 主 要 特征 及 其 安装 情况 。 谷 歌 推出 的 TensorFlow 是 一 
个 采用 数据 流 图 、 用 于 数值 计算 的 开源 软件 库 。 它 有 一 些 主要 特征 , 例如 自动 求 微分 、 多 语言 支持 、 
高 度 的 灵活 性 、 可 移植 性 、 性 能 最 优化 等 。 对 于 TensorFlow 的 安装 ， 我 们 重点 介绍 了 Linux 下 的 
安装 情况 。 

其 次 ， 我 们 对 于 TensorFlow 的 三 个 主要 组 成 部 分 (计算 图 、 张 量 和 会 话 ) 进行 了 详细 解读 。 
概括 起 来 讲 ,我 们 可 以 用 张 量 表示 数据 ， 用 计算 图 搭建 神经 网 络 ， 用 会 话 执行 计算 图 ， 再 优化 计算 
图 中 线 上 的 权重 值 (参数) 后 得 到 模型 。 

然后 ， 我 们 对 于 TensorFlow 的 工作 原理 进行 了 深度 解读 ， 了解 到 TensorFlow 是 一 个 
“client 一 master 一 Worker” 分 布 式 的 架构 系统 。 

客户 端 借 助 于 会 话 界面 可 以 和 master 进 行 交互 ,把 将 要 触发 执行 的 请 求 发 送 给 master, ifi] master 
则 会 把 全 部 要 执行 的 任务 分 配给 单个 或 多 个 worker， 对 应 的 结果 通过 master 再 返回 给 客户 端 。 作 
为 专注 于 执行 计算 的 worker， 任 何 一 个 worker 进程 都 在 管理 并 使 用 着 整个 计算 硬件 资源 ， 进 而 采 
取 最 优 的 工作 方式 来 计算 子 图 。 

下 面 我 们 通过 一 个 sigmoid 示例 对 TensorFlow 进行 更 深 一 层 的 解读 ， 并 且 在 后 面 结合 该 示例 
对 TensorFlow 的 客户 端 做 了 专门 的 深度 解读 。 

接 下 来 ， 我 们 详细 讨论 了 构成 一 个 典型 TensorFlow 客户 端的 常见 元 素 : 输入、 变量 、 输 出 和 
运算 (或 操作 〉。 输 入 是 我 们 提供 给 算法 的 数据 ， 目 的 是 用 于 模型 的 训练 和 测试 。 我 们 讨论 了 三 种 
不 同 的 输入 方式 : 使 用 占 位 符 、 预 加 载 数据 并 将 数据 存储 为 TensorFlow 张 量 以 及 使 用 输入 管道 。 
然后 我 们 讨论 了 TensorFlow 变量 ， 它 们 与 其 他 张 量 的 区 别 ， 以 及 如 何 创建 和 初始 化 变量 。 之 后 ， 
我 们 讨论 了 如 何 使 用 变量 来 创建 中 间 和 最 终 的 输出 。 最 后 ， 我 们 讨论 了 几 个 可 用 的 TensorFlow 运 
算 或 操作 , 例如 数学 运算 、 和 矩阵 运算 、 神 经 网 络 相关 的 运算 和 控制 流 的 操作 ， 这 些 运 算 和 操作 将 在 
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本 书后 面 使 用 。 在 对 这 些 常见 元 素 解读 的 过 程 中 , 我 们 逐步 分 析 并 结合 代码 加 以 实现 ， 力 求 让 每 
位 读者 都 能 够 更 直观 地 理解 其 内 在 逻辑 和 实现 机 制 。 

我 们 还 讨论 了 在 实现 TensorFlow 客户 端 时 如 何 使 用 变量 作用 域 来 避免 某 些 缺 陷 。 作 用 域 允许 
我 们 轻松 使 用 变量 ， 同 时 也 能 保持 代码 的 封装 性 。 

最 后 ， 我 们 使 用 之 前 学 习 的 所 有 概念 实现 了 一 个 神经 网 络 ， 我 们 使 用 三 层 神 经 网 络 对 MNIST 
数字 数据 集 进行 分 类 。 

下 一 章 ， 我 们 将 正式 开始 讲解 NLP 领域 的 重要 模型 : 词 嵌入 (Word Embedding) 。 


根据 维基 百科 ， 词 嵌入 CWord Embedding) 被 定义 为 自然 语言 处 理 (NLP) 中 的 一 组 语言 建 
模 和 特征 学 习 技术 的 集体 名 称 ， 其 中 来 自 词汇 表 的 单词 或 短语 被 映射 成 实数 向 量 。 

词 嵌 入 是 一 种 将 文本 中 的 词 转换 为 数字 向 量 的 方法 , 我们 为 了 使 用 标准 机 器 学 习 算 法 来 对 它们 
进行 分 析 ， 就 需要 把 这 些 被 转换 成 数字 的 向 量 以 数字 的 形式 作为 输入 。 词 嵌入 过 程 就 是 把 一 个 维 
数 为 所 有 词 数量 的 高 维 空间 嵌入 到 一 个 维 数 低 得 多 的 连续 向 量 空间 中 , 每 个 单词 或 词组 被 映射 
为 实数 域 上 的 向 量 ， 词 嵌入 的 结果 就 是 生成 了 词 向 量 。 

我 们 知道 ， 有 一 种 被 称 为 One-Hot 编码 〈 被 称 为 独 热 码 或 独 热 编码 ) 的 词 向 量 。One-Hot 编码 
是 最 基本 的 向 量 方法 。 回 顾 一 下 ，One-Hot 编码 通过 词汇 表 大 小 的 向 量 表 示 文 本 中 的 词 ， 其 中 只 有 
对 应 于 该 词 的 项 是 1 而 所 有 其 他 项 都 是 零 。 

One-Hot 编码 的 主要 问题 是 无 法 表示 词 之 问 的 相似 性 。 在 任何 给 定 的 语料库 中 ,我 们 会 期 望 诸 
如 ( 狗 , AD a ET) 之 类 的 词 对 具有 一 些 相似 性 。 使 用 点 积 计算 向 量 之 间 的 相似 性 。 点 积 是 
向 量 元 素 之 间 元 素 乘法 的 总 和 。 在 One-Hot 编码 向 量 的 情况 下 , 语料库 中 任何 两 个 词 之 间 的 点 积 总 

为 了 克服 One-Hot 编码 的 局 限 性 ，NLP 领域 借用 了 信息 检索 OR 技术 ， 使 用 文档 作为 上 下 
文 来 对 文本 进行 矢量 化 。 值 得 注意 的 技术 是 TF-IDF (https://en.wikipedia.org/wiki/T%E2%80%93idf) ~ 
潜在 语义 分 析 CLSA, https//en.wikipedia.org/wiki/Latent semantic analysis ) 和 主题 建 模 
Chttps://en.wikipedia.org/wiki/Topic model) 。 然 而 ， 这 些 技术 获取 到 略微 不 同 的 、 以 文档 为 中 心 
的 语义 相似 性 。 

词 嵌 入 技术 的 开发 始 于 2000 年 。 词 嵌入 与 以 前 基于 IR 的 技术 的 不 同 之 处 在 于 , 它们 使 用 词 作 
为 其 上 下 文 ， 从 人 类 理解 的 角度 来 看 ， 这 得 到 了 更 自然 的 语义 相似 性 形式 。 今 天 ， 词 嵌入 是 各 种 
NLP 任务 中 文本 向 量化 的 首选 技术 ， 例 如 词性 标注 、 命 名 实体 识别 、 文 本 分 类 、 文 档 聚 类 、 情 感 
分 析 、 文 档 生 成 、 问 答 系统 等 。 

在 本 章 中 ， 我 们 将 对 分 布 式 表示 、Word2Vec 的 两 种 模型 、 两 种 模型 对 比 、Word2Vec 扩展 模 
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型 和 GloVe 模型 进行 探讨 和 分 析 ， 最 后 我 们 介绍 利用 相关 模型 进行 句子 分 类 的 案例 。 这 些 词 嵌入 
技术 已 经 被 证 明 更 有 效 ， 且 已 在 深度 学 习 和 NLP 领域 中 得 以 广泛 采 


4.1 分 布 式 表 示 
4.1.1 分 布 式 表示 的 直观 认识 


这 里 有 两 个 句子 : 


e ”北京 是 中 国 的 首都 。 
e 华盛顿 是 美国 的 首都 。 


从 这 两 个 句子 中 ,我们 可 以 直观 地 意识 到 (北京 ,华盛顿 ) 和 (中 国 , 美国 ) 这 两 对 词 在 某 种 程度 上 
是 相关 的 ， 并 且 相应 的 词 在 每 对 中 彼此 以 相同 的 方式 相关 ， 即 : 

北京 : 中 国 一 一 华盛顿 : 美国 

因此 ， 分 布 式 表示 (Distributed Representation) 的 目的 是 找到 一 个 变换 函数 b ， 以 便 将 每 个 词 
转换 为 其 相关 的 向 量 ， 使 得 以 下 形式 的 关系 成 立 : 

中 (“北京 ”)- (“中国”) 中 (“ 华 盛 顿 ”) - 中 (“美国 ”) 

换 句 话说 , 分 布 式 表示 旨 在 将 词 转换 为 向 量 , 其 中 向 量 之 间 的 相似 性 与 词 之 间 的 语义 相似 性 相 
关 。 


有 的 图 书 上 将 GloVe 归 入 Word2Vec, 这 么 归 类 也 可 以 理解 ， 词 嵌入 实现 的 技术 模型 有 多 
种 ， 不 论 是 Word2Vec 中 的 两 个 典型 模型 ( Skip-gram 和 CBOW ) 还 是 GloVe 模型 ， 都 是 
处 理 词 谋 入 任务 的 技术 手段 ， 但 严格 意义 上 Word2Vec 和 GloVe 之 间 还 是 有 些 区 别 的 。 


4.1.2 ”分 布 式 表示 解读 


早期 的 传统 独 热 编 码 表 示 COne-Hot Encoding Representation， 如 图 4-1 所 示 ) ， 仅 仅 将 词 进行 
符号 化 , 不 包含 任何 语义 信息 ,显然 不 利于 工作 任务 的 有 效 达 成 。 与 独 热 编码 表示 技术 相对 应 的 就 
是 分 布 式 表示 ，Harmis 于 1954 年 提出 了 分 布 式 假说 (Distributional Hypothesis) ， 其 观点 是 上 下 
文中 相似 的 词 其 语义 也 相似 。 这样 一 来 ,在 该 理论 指引 下 , 我 们 可 以 把 信息 分 布 式 地 存储 在 向 量 的 
各 个 维度 中 , 这 种 分 布 式 表示 方法 具有 紧密 低 维 、 句法 和 语义 信息 易 获 取 的 特点 。 Firth 在 1957 年 
对 分 布 式 假说 做 了 进一步 阐述 和 明确 : 词 的 语义 由 其 上 下 文 决定 。 
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© 独 热 表 示 ( one-hot representation ) 
”在 高 维 向 量 中 只 有 一 个 维度 撕 述 了 词 的 信息 
ERA 一 1 
话 简 : [001000000000000.…] 
3:$:[000000001000000...] 
* 应 用 
* TIMAN ( bag-of-words, BOW ) 
* 简单 易 实现 
* 缺点 
RE ow 
* 没有 词 序 信息 
* 无 法 准确 捕捉 语义 信息 。 词 汇 鸿沟 : 任意 词 之 间 是 瑰 立 的 ， 即 使 是 同义词 


图 4-1 传统 的 独 热 编码 技术 表示 


基于 分 布 式 假说 的 词 表示 方法 ,根据 建 模 不 同 ， 大 体 可 以 分 为 三 类 : 基于 矩阵 的 分 布 表示 、 基 
于 聚 类 的 分 布 表示 和 基于 神经 网 络 的 分 布 表示 .尽管 这 些 不 同 的 分 布 表示 方法 使 用 了 不 同 的 技术 手 
段 获取 词 表 示 , 但 由 于 这 些 方法 均 基于 分 布 式 假说 ， 所 以 它们 的 核心 思想 也 都 由 两 部 分 组 成 : 一 是 
选择 一 种 方式 描述 上 下 文 ， 二 是 选择 一 种 模型 刻画 某 个 词 (“目标 词 ”) 与 其 上 下 文 之 间 的 关系 。 

下 面 给 出 分 布 式 表 示 方 法 的 三 个 分 类 , 这 里 不 做 过 多 解读 , 感 兴趣 的 读者 可 以 仔细 研读 来 斯 惟 
博士 的 论文 《基于 神经 网 络 的 词 和 文档 语义 向 量 表示 方法 研究 》 〈 中 国 科学 院 大 学 自动 化 研究 所 ， 
2016 年 1 月 ) 。 

1. 基于 甜 阵 的 分 布 表示 

基于 和 矩 阵 的 分 布 表示 主要 是 构建 “ 词 - 上 下 文 ” 和 矩阵 ， 通 过 某 种 技术 从 该 矩阵 中 获取 词 的 分 布 
表示 。 和 矩阵 的 行 表 示 词 ， 列 表示 上 下 文 ， 每 个 元 素 表示 某 个 词 和 上 下 文 共 现 的 次 数 ， 这 样 矩 阵 的 一 
行 就 描述 了 该 词 的 上 下 文 分 布 情况 。 常 见 的 上 下 文 有 : @ 文 档 ， 即 “ 词 -文档 ”矩阵 ，@ 上 下 文 的 
每 个 词 ， 即 “ 词 - 词 ” 和 矩阵 ; @n- 元 词组 ， 即 “ 词 -n- 元 组 ” 甜 阵 。 算 阵 中 的 每 个 元 素 为 词 和 上 下 
文 共 现 的 次 数 ， 通 常会 利用 TF-IDF、 取 对 数 等 方法 进行 加 权 和 平滑 。 另 外 ， 和 矩阵 的 维度 较 高 并 且 
EE RIS. u EHE SVD, NMF 等 手段 进行 分 解 降 维 ， 变 为 低 维 稠密 矩阵 。 关 于 矩阵 的 分 布 
表示 见 图 4-2。 


e 构建 一 “ 词 -上 下 文 "矩阵 ， 从 和 抢 阵 中 获取 词 的 表示 。 和 拖 阵 中 ， 每 行 对 应 一 
个 词 ， 每 列表 示 一 种 不 同 的 上 下 文 ， 和 矩阵 中 的 每 个 元 素 对 应 相关 词 和 上 下 文 的 共 现 


信息 。 

e ”构建 步骤 e RETA: 词 -文档 ， 词 - 词 ， 词 -n 元 词组 
确定 矩阵 在 中 元 素 的 值 ， 共 现 次 数 ，TF-IDE 
矩阵 分 解 ，SVD.PCA 

e ”代表 模型 d. mu 


GloVe(Global Vector) 


42 ”基于 和 矩阵 的 分 布 表示 
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2. 基于 聚 类 的 分 布 表示 
通过 取 类 手段 构建 词 与 其 上 下 文 之 间 的 关系 , 代表 模型 为 布朗 聚 类 (Brown Clustering). 。 
3. 基于 神经 网 络 的 分 布 表示 


COD 神经 网 络 语言 模型 (Neural Network Language Model, NNLM) 
Xu 等 人 在 2000 年 首次 尝试 使 用 神经 网 络 求解 二 元 语言 模型 。2001 年 ，Bengio 等 人 正式 提 
出 神经 网 络 语言 模型 。 该 模型 在 学 习 语 言 模 型 的 同时 也 得 到 了 词 向 量 ， 具 体 如 图 4-3 所 示 。 


€ j -(n—1)) 


图 4-3 神经 网 络 语言 模型 (NNLM) 
其 中 ， 输 入 层 的 词 向 量 顺序 拼接 为 x = [e (vi-m): elwa) elwa) 隐藏 层 hn 和 
输出 层 y 分 别 为 : h = tanh(b! + Hx), y = b? - Wx - Uh; 将 y 转 成 对 应 的 概率 值 ; 
exp (y(wi)) 


P(w; | Wi-(n-1) +- -3 Wi-1) = 
i-a exp (y(vr)) 


而 对 于 整个 语 料 而 言 ,语言 模型 需要 做 以 下 最 大 化 运算 : 
» log P(w; | Wi-{n-1); - - - , wii) 


Vi-(n-1);€D 


(2) Log 双 线 性 语言 模型 (LBL) 
2007 年 ，Mnih 和 Hinton 在 神经 网 络 语言 模型 的 基础 上 提出 了 log 双 线 性 语言 模型 
(Log-Bilinear Language Model，LBL) ， 如 图 4-4 所 示 。 
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INLM 


y (es) b^ e'( 四 tanh(b' H [e( e, s 0) z-e( mi 2);e (m )]) 


= ECawzwu-o-nzu-o) | 
LBL 


E(w; wii. i) b^ te (m) b + 


e(a) H[e( ex); 6C); e( iy)] 


4-4 Log 双 线性 语言 模型 


G) 循环 神经 网 络 语言 模型 CRNNLMO 
Mikolov 等 人 提出 的 循环 神经 网 络 语言 模型 (Recurrent Neural Network based Language Model, 
RNNLM) 直接 对 PO 进行 建 模 , RNNLM 可 以 利用 所 有 的 上 文 信息 预测 下 一 个 词 ， 其 模型 结构 如 


图 4-5 所 示 。 
NI 
输出 层 y | có 


隐藏 层 h(i) 


输入 层 


原始 文本 
图 4-5 循环 神经 网 络 语言 模型 (RNNLM) 


(4) C&W 模型 
与 前 面 的 三 个 基于 语言 模型 的 词 向 量 生成 方法 不 同 ，Collobert 和 Weston 在 2008 年 提 
出 的 C&W 模型 ( 见 图 4-60 ， 是 第 一 个 直接 以 生成 词 向 量 为 目标 的 模型 。 


输出 层 


imava) 


Bux CU ie (n—1)2) 


€i -(n-1)2) €x i) * 


4-6 C&W 模型 
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就 C&W 模型 〈 见 图 4-6) 与 NNLM ( 见 图 4-30 之 间 的 差异 而 言 ， 主 要 在 于 C&W B 
型 将 目标 词 置 于 输入 层 ， 且 同时 输出 层 也 从 语言 模型 的 |V| 个 节点 变 为 一 个 节点 ， 该 节点 的 
数值 表示 对 这 组 n 元 短语 的 评分 。 评 分 也 仅 有 高 低 之 分 ， 而 不 存在 概率 的 特性 ， 所 以 ， 我 们 
无 需 进 行 复杂 的 归 一 化 操作 。C&W 模型 使 用 这 种 方式 把 NNLM 模型 在 最 后 一 层 的 [V| x [h] 
次 运算 降 为 | 次 运算 ， a oa OE 这 个 区 别 使 得 C&W 模型 
成 为 神经 网 络 词 向 量 模型 中 最 为 特殊 的 一 个 ， 其 它 模型 的 目标 词 均 在 输出 层 ， 只 有 C&W 模 
型 的 目标 词 在 输入 层 。 

C5) 著名 的 Word2vec 

Word2vec 包含 两 个 典型 模型 Skip-gram (SG) fll Continuous Bag-of-Words (CBOW) ， 如 
图 4-7 所 示 。 


eM 


输出 层 Y ME RANA ii 
输入 层 x 
ela ela) "pri e( eis ya) 
原始 文本 ci -niy2 i1) Chisi) €i e(n—1)/2) 
uum Skip-gram 
WAR x S. CO- cx 3 
e(ay is aya) elan) eln) e(O) 
BAXA SE TR [LM eA. CU e(n—1)2) 


图 4-7 Word2vec 工具 中 的 两 个 模型 


Word2vec 是 谷歌 在 2013 年 推出 的 一 个 NLP 工具 ， 是 从 大 量 文本 语 料 中 以 无 监督 的 方式 学 习 
语义 知识 的 一 种 模型 , 它 的 特点 是 将 所 有 的 词 向 量化 , 这 样 我 们 就 能 以 定量 的 方式 去 度量 词 与 词 之 
间 的 关系 ， 挖 掘 词 之 问 的 联系 ， 所 以 Word2Vec 被 大 量 用 于 自然 语言 处 理 (NLP) 中 。Word2Vec 
模型 分 为 两 个 部 分 ， 第 一 部 分 是 建立 模型 ， 第 二 部 分 是 通过 模型 获取 词 向 量 。Word2Vec 整个 建 模 
过 程 实际 上 与 自 编码 器 (Auto-Encoder) 的 思想 很 相似 ， 即 先 基于 训练 数据 构建 一 个 神经 网 络 ， 当 
这 个 模型 训练 好 以 后 ， 我 们 先 不 会 用 这 个 训练 好 的 模型 处 理 新 的 任务 ， 而 真正 需要 的 是 这 个 模型 通过 
训练 数据 所 学 得 的 参数 ， 其 实 这 与 部 分 传统 机 器 学 习 模 型 类 似 〈 比 如 ， 笔 者 博客 《机 器 学 习 实践 之 预 
测 数值 型 数据 一 一 回归 》 一 文中 提 到 的 通过 训练 算法 寻找 回归 系数 ) ， 例 如 隐藏 层 的 权重 值 算 阵 ， 后 
面 我 们 将 会 看 到 这 些 权 重 值 在 Word2Vec 中 实际 上 就 是 我 们 试图 去 学 习 的 词 向 量 (Word Vector) 。 

对 于 整个 语料库 而 言 ，CBOW 优化 的 最 大 目标 为 : 


»» log P(w|c) 


(w,c)eD 


其 中 ，P(wl|c) 是 CBOW 模型 根据 上 下 文 的 表示 来 实现 对 目标 词 直接 进行 的 预测 ， 有 具体 如 下 : 
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Plo) exp (e'(w)"æ) 
oreo (ete) 
同样 ， 对 于 整个 语料库 而 言 ，Skip-gram 模型 通过 上 下 文 预测 目标 词 ， 优 化 的 最 大 化 目标 为 : 


Y ”> logPlolw) 


(w,c)eD wec 
其 中 ，P(w|w)) 为 : 
exp (e'u)'e(u;)) 


Dwev exp COLG )) 


P(w|u;) 


(6) Order 模型 

上 面 提 到 的 CBOW 模型 和 Skip-gram 模型 为 了 获得 更 高 的 性 能 ， 在 神经 网 络 语言 模型 或 者 
log 双 线 性 语言 模型 的 基础 上 去 掉 了 隐藏 层 和 词 序 信息 。 为 了 更 好 地 分 析 词 序 信息 对 词 向 量 性 能 的 
影响 ， 这 里 有 一 个 新 模型 ， 名 为 “Order”( 见 图 4-8) ， 意 为 保留 了 词 序 信息 。 该 模型 在 保留 词 序 
信息 的 同时 ， 去 除了 隐藏 层 。 


TS ES 
— Ex 
输入 层 x S o 

e(a, i wa) elar) [elr ) e(aius a) 


原始 文本 P-n) €) hirn) € e (n— 1)/2) 


1 
CBOV w= = 2 e(w;) 


图 4-8 Order 模型 


伊 万 ， 布 罗 德 罗 夫 (Ivan Vendrov) 、 瑞 安 基 洛斯 (Ryan Kiros) ~ Sanja Fidler、 拉 奎 尔 。 乌 
塔 森 CRaquel Urtasun) 发 表 在 ICLR2016 上 的 论文 《ORDER -E MBEDDINGS OF IMAGES AND 
Z4NMGU4GE》， 提 出 了 一 种 新 的 基于 偏 序 关 系 的 分 布 式 表 示 向 量 构建 方法 ， 可 以 用 于 图 像 与 文本 
等 领域 ， 并 在 上 下 位 关系 预测 CHypernym Prediction) 、 标 题 -图 像 检索 (Caption-ImageRetrieval) 
和 自然 语言 推理 (Textual Entailment / Natural Language Inference) 等 三 个 任务 上 进行 了 实验 ， 取 得 
了 不 错 的 效果 。 文 章 的 最 大 亮点 在 于 基于 偏 序 关系 的 向 量 (Order-Embedding) 的 构建 ， 如 果 有 时 
间 ， 建 议 读者 看 看 原文 。 

论文 提出 了 一 种 全 新 的 基于 偏 序 关系 的 向 量 学 习 方 法 ,将 维持 具有 层次 关系 的 向 量 之 间 的 偏 序 
关系 作为 学 习 的 目标 。 上 下 位 关系 预测 、 标 题 -图 像 检 索 和 自然 语言 推理 等 任务 ， 本 质 上 都 是 学 习 
图 像 和 文字 上 偏 序 关系 的 实例 。 如 图 4-9 所 示 ， 图 像 标题 即 为 图 像 的 一 种 抽象 表达 ， 而 标题 本 身 的 
表达 也 抽象 形成 一 个 层次 结构 , 这 种 层次 结构 即 为 一 种 偏 序 关系 。 上 下 位 关系 预测 和 自然 语言 推理 
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等 任务 也 自然 能 够 转化 为 一 个 学 习 偏 序 关系 的 任务 。 


entity 
skis mds ^ rea dog 
woman person walking 
| in me walking 
woman skiing woman LN her dog 
| i 
^ : Y 


图 4-9 视觉 语义 层次 结构 〈 部 分 ) 
4.2 Word2vec 模型 (以 Skip-Gram 为 例 ) 


Mikolov 等 人 在 2013 年 的 文献 中 , 同时 提出 了 Skip-Gram #1 CBOW( Continuous Bagof-Words) 
模型 ， 设 计 两 个 模型 的 主要 目的 是 希望 用 更 高 效 的 算法 获取 词 向 量 。 因 此 ， 根 据 前 人 在 NNLM、 
RNNLM 和 C&W 模型 上 的 积累 ,他 们 简化 了 当时 已 有 模型 且 保 留 了 核心 部 分 , 便 有 了 这 两 个 模型 。 
常见 的 CBOW 和 Skip-Gram 模型 结构 图 如 图 4-10 所 示 。 


INPUT PROJECTION OUTPUT INPUT PROJECTION OUTPUT 


图 4-10 模型 结构 图 左 侧 CBOW 模型 ， 右 侧 Skip-Gram 模型 
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Skip-Gram 算法 模型 是 一 种 利用 文字 的 上 下 文 来 学 习 词 嵌入 的 算法 。 让 我 们 在 后 文 一 步 一 步 地 
去 理解 Skip-Gram 算法 。 因 为 原始 的 Skip-Gram 模型 没有 中 间 隐 藏 层 ,而 目前 使 用 的 优化 Skip-Gram 
模型 存在 中 间 隐 藏 层 ， 为 了 更 好 地 解读 Skip-Gram 模型 ， 所 以 这 里 先 讨论 优化 Skip-Gram 模型 ， 后 
面 会 对 原始 Skip-Gram 和 优化 Skip-Gram 做 一 个 简单 对 比分 析 。 


4.2.1 直观 认识 Word2vec 


上 面 提 到 的 词 向 量 (Word2vec) 是 词 的 数字 表示 ， 保 留 了 词 之 间 的 语义 关系 。 例 如 ， 单 词 cat 
的 向 量 与 单词 dog 的 向 量 就 非常 相似 ， 而 单词 pencil 的 向 量 却 与 词 cat 的 向 量 差 别 很 大 ， 甚 至 完全 
不 同 。 其 实 ， 这 种 词 向 量 间 的 相似 性 取决 于 对 应 的 频率 ， 所 以 这 里 讨论 一 下 两 个 词 〈 如 [cat,dog] 或 
者 [pencil,cat]) 在 相同 上 下 文中 的 使 用 情况 。 考 虑 以 下 句子 : 


SES 


pencil 


Ilike to pet my 


My does not like the postman 


很 显然 , 在 组 成 上 面 句子 的 过 程 中 , 无 论 是 cat 还 是 dog. 都 比 pencil 更 加 适合 填充 到 空白 处 。 
在 上 面 的 句子 中 ，pencil 无 论 从 拼写 还 是 语法 方面 都 没有 问题 ， 为 什么 它 就 是 不 对 呢 ? 是 因为 这 里 
的 pencil 单词 会 使 得 上 下 文 语义 产生 错误 。 所 以 ，Word2vec 算法 模型 使 用 词 的 上 下 文 来 学 习 词 的 
数字 表示 ， 以 便 在 相同 上 下 文中 所 使 用 的 词 具有 相似 的 词 向 量 。 


4.22 定义 任务 


我 们 现在 解读 一 下 Word2vec 算法 的 机 制 情况 ， 后 面 会 继续 讲解 模型 细节 ， 以 便 我 们 知道 如 何 
实现 Word2vec 算法 。 为 了 以 无 监督 方式 学 习 词 向 量 (数据 没有 被 标记 ) ， 我 们 需要 定义 且 完成 一 
些 任 务 ， 具 体 任务 有 : 

(1) 创建 格式 为 [输入 词 ,输出 词 ] 的 数据 元 组 ， 其 中 每 个 词 都 表示 为 一 个 One-Hot 向 量 ， 均 来 
自 原始 文本 。 

(2) 定义 出 一 个 模型 ， 将 One-Hot 向 量 作为 输入 和 输出 进行 训练 。 

G) 定义 一 个 损失 函数 ， 用 于 预测 正确 的 词 〈《 这 些 词 来 自 于 输入 词 的 上 下 文 ) ， 以 便 优化 模型 。 

(4) 通过 相似 词 具有 相似 的 词 向 量 来 评估 模型 。 


这 个 流程 看 似 简单 ， 其 实在 学 习 词 向 量 的 表现 上 是 超 强 的 ， 下 面 对 相 关 细节 进行 解读 。 
4.233 ”从 原始 文本 创建 结构 化 数据 


这 部 分 对 于 原始 文本 的 操作 并 不 复杂 ， 只 是 将 其 置 于 某 个 结构 中 。 下 面 给 出 一 个 例子 , 这 里 有 
下 面 一 句 话 : 
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The cat pushed the glass off the table- 


由 上 面 这 句 话 ， 我 们 创建 的 数据 结构 如 图 4-11 所 示 。 句 子 下 面 的 每 一 行 代表 一 个 数据 点 。 蓝 
色 框 表示 One-Hot 输入 词 (中间 词 ， 也 叫 目标 词 ) ， 红 色 框 表示 One-Hot 输出 词 (上 下 文 窗口 中 除 
中 间 词 之 外 的 任何 词 均 称 为 上 下 文 词 ) 。 上 下 文 窗口 大 小 越 大 ,模型 的 性 能 就 越 好 。 随 着 数据 量 的 
增加 ， 窗 口 的 大 小 也 随 之 增 大 ， 进 一 步 导 致 计算 成 本 快速 上 升 。 注意 一 点 ， 不 要 将 目标 词 与 神经 网 
络 的 目标 正确 输出 ) 混淆 ， 这 是 两 个 完全 不 同 的 东西 。 本 节 内 容 暂 以 Skip-Gram 模型 为 例 进行 解 
释 说 明 。 


Context Window 


«M > 
< > 
<- > 
The| cat | pushed |the |glass| off the table 
j 
The | cat 
1 1 
]| cat || pushed 
| 
cat | pushed F 
| pushed || the 
] 
pushed || the 
ve o 


图 4-11 例句 数据 结构 示意 图 
这 里 ， 单 个 上 下 文 的 窗口 是 指 从 当前 输入 词 (Input Word， 即 目标 词 ) 的 一 侧 〈 左 边 或 右边 ) 选取 
词 的 数量 。 
如 果 我 们 设置 窗口 大 小 window_size=2, 那么 我 们 最 终 获得 窗口 宽度 为 5, 窗口 内 容 就 是 “'The', 


'cat', 'pushed', 'the','glass'” . 


网 上 有 专栏 文章 多 处 指出 ， 整 个 窗口 大 小 是 2*window_size = 4， 笔者 为 此 查阅 多 篇 国外 


原文 资料 ， 最 终 认 为 整个 窗口 宽度 或 大 小 应 该 为 span=2*window_size+f1， 有 疑惑 的 地 方 ， 
建议 读者 多 看 几 篇 国外 原文 ， 因 为 也 有 个 别 国外 文章 中 提 到 span = 2*window size, 3X4 
了 读者 。 


4.2.4 定义 词 戏 入 层 和 神经 网 络 


1. 词 嵌入 层 ( Embedding Layer , WAARAB ) : 存储 所 有 词 向 量 
词 嵌 入 层 存 储 词汇 表 中 找到 的 所 有 词 的 词 向 量 。 你 可 以 想象 到 这 将 是 一 个 巨大 的 矩阵 
([vocabulary size X embedding size]， 即 [词汇 大 小 X 词 向 量 大 小 ]) 。 这 里 读者 可 以 自行 调整 词 向 
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量 大 小 (Embedding Size) 。 当 然 ， 词 向 量 大 小 越 大 ， 模 型 表现 越 佳 。 结 合 上 面 的 例句 ， 其 流程 图 


如 图 4-12 所 示 。 


cat ^ 

dog 

walk ' 
* Vocabulary 
i Size 

pencil * 

忒 ------------------------------- > 
Embedding size 


图 4-12 词 向 量 示 例 图 


2. 神经 网 络 : 将 词 向 量 映射 到 输出 


在 训练 期 间 


， 神 经 网 络 利用 输入 词 去 尝试 预测 输出 词 。 然 后 ， 我 们 会 惩罚 模型 的 错误 分 类 以 及 


奖励 模型 的 正确 分 类 。 这 里 对 模型 会 话 做 了 一 些 限制 : 一 次 处 理 单个 输入 和 单个 输出 。 下 面 是 训练 


期 间 的 流程 : 


CD 对 于 给 定 的 输入 词 〈 目 标 词 》， 从 词 嵌 入 层 中 找到 相应 的 词 向 量 。 
(2) 将 词 向 量 输入 神经 网 络 ， 然 后 尝试 预测 正确 的 输出 词 (上 下 文 词 ) 。 
(3) 通过 比较 预测 和 真实 的 上 下 文 词 ， 计 算 损 失 。 

CD 利用 损失 函数 和 随机 优化 器 来 优化 神经 网 络 和 词 嵌 入 层 。 


需要 注意 的 一 点 是 ， 在 计算 预测 时 ， 我 们 使 用 softmax 激活 函数 将 预测 标准 化 为 有 效 的 概率 分 布 。 


425 #8 


下 面 我 们 可 
这 种 数据 的 


以 将 所 有 部 分 放 在 一 起 来 看 模型 的 全 貌 ， 如 图 4-13 所 示 。 
局 部 排列 和 模型 布局 是 Word2vec 的 Skip-Gram 算法 ,也 是 我 们 本 节 要 关注 的 内 容 。 


另 一 种 算法 称 为 连续 词 袋 (CBOW) 模型 ， 后 面 也 会 单独 阐述 。 
至 此 ， 我 们 可 以 对 于 Skip-Gram 模型 的 概念 结构 和 实施 结构 做 个 小 的 总 结 。 图 4-14 所 示 为 概 


念 结构 图 ， 图 4- 


15 所 示 为 实施 结构 图 。 
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Context word 
The 


A Optimize 
1 Computetheloss------------- 


Prediction vector 


Embedding layer 


Target word 


图 4-13 模型 全 貌 示 例 


> 
2 Dee NS 


EA [word [17] 


嵌入 层 (P) (V*D) 


4-14 Skip-Gram 模型 概念 架构 图 
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fik (bev) 


KAJE (P) (V+D) 
Lv | 


图 4-15 Skip-Gram 模型 实施 架构 图 


V: 词汇 量 (语料库 中 的 唯一 词 数 ) 。 

P: 投影 或 词 谈 入 层 (The Projection or the Embedding Layer ) . 
D: 词 向 量 空间 的 维 数 。 

b: 单个 batch 的 大 小 。 


4.2.6 定义 损失 函数 


到 目前 为 止 , 我 们 还 没有 深入 讨论 Word2Vec 的 一 个 非常 关键 的 话题 ， 那 就 是 损失 函数 。 一 般 
情况 下 ， 标 准 softmax 交叉 焙 损 失 函 数 是 分 类 任务 中 一 个 非常 好 的 损失 函数 。 然 而 ， 这 种 损失 函数 
对 Word2Vec 来 说 有 时 并 不 是 很 实用 。 在 现实 工作 任务 中 ， 可 能 涉及 数 十 亿 个 词 ， 词 汇 量 可 以 轻松 
达到 100000 个 或 者 更 多 , 这 就 使 得 softmax 函数 的 归 一 化 变 得 非常 沉重 , 这 是 因为 softmax 的 完全 
A EE VESTE f t8 RII SE SORS. BLU, 在 保证 模型 性 能 的 前 提 下 , 我 们 需要 转向 使 用 近 
似 且 有 效 的 损失 函数 。 这 样 一 来 ， 对 于 一 个 Word2vec 模型 设计 而 言 ， 最 大 的 挑战 就 变 成 如 何 降低 
softmax 层 的 计算 复杂 度 ， 这 也 是 机 器 翻译 (MT) Gean 等 ) 和 语言 建 模 (Jozefowicz 等 ) 共同 关 
注 之 处 。 语 言 建 模 中 近似 softmax 的 方法 有 多 种 ， 例 如 : 


多 层次 softmax。 

微分 softmax. 

CNN-softmax. 

基于 采样 (Sampling) 的 方法 。 
友 重 要 性 采样 

友 具 有 适应 的 重要 性 采样 
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友 目 标 采 样 

克 嗓 声 对 比 估计 
六 负 采样 

友 自 标准 化 

友 低 频 的 标准 化 
LESE. 


下 面 只 讨论 一 下 比较 流行 的 近似 选择 : 负 采 样 和 多 层次 softmax o 
1. softmax 层 负 采 样 ( Negative Sampling ) 


对 于 softmax 损失 函数 的 替代 选择 ， 下 面 我 们 将 采用 更 智能 的 替代 方案 ， 称 为 sampled softmax 
损失 。 注 意 ， 与 标准 softmax 交叉 炉 损 失 相 比 ， 这 里 有 了 很 多 变化 。 首 先 ， 需 要 计算 的 是 给 定 目 标 
词 所 在 真实 上 下 文 词 的 ID 与 对 应 于 真实 上 下 文 词 ID 的 预测 值 之 间 的 交叉 炉 损 失 。 其 次 ,我 们 根 
据 一 些 噪声 分 布 添加 了 采样 的 KK 个 负 样 本 的 交叉 炉 损失 。 这 就 是 我 们 说 的 对 softmax 层 进行 负 采 样 。 
实际 数据 为 (输入 — 输出 ) ， 噪 声 为 〈K-many 虚拟 噪声 输入 — 输出 ) 。 借 助 于 噪声 ， 是 指使 用 
不 属于 目标 词 所 在 上 下 文 的 词 创建 的 与 实际 词 对 (输入 — 输出 ) 不 相符 的 ， 即 使 用 CK-many 虚 
拟 噪声 输入 — 输出 ) 词 对 。 我 们 还 将 softmax 激活 函数 替换 为 sigmoid 激活 函数 (也 称 为 逻辑 函数 )。 
这 允许 我 们 在 保持 [0,1] 范 围 内 输出 的 同时 , 也 可 以 去 除 损失 函数 对 整个 词汇 表 的 依赖 。 在 较 高 的 层 
面 上 ， 我 们 将 损失 定义 如 下 : 

Loss = Sigmoideross Entropy Erediction, CorrectWord) 


+ > ECwoise1p)SigmoidCrossEntropy(Prediction, Noise1D) 
1 


SigmoidCrossEntropy 是 我 们 可 以 在 单个 输出 节点 上 定义 的 损失 ， 与 其 余 节点 无 关 。 这 使 它 成 
为 我 们 分 析 问 题 的 理想 选择 , 因为 我 们 的 词汇 量 会 变 得 非常 大 。 我 们 不 会 深入 研究 这 种 损失 的 细节 ， 
也 不 需要 了 解 这 是 如 何 实现 的 ， 因 为 它们 可 以 作为 TensorFlow 中 的 内 置 函数 使 用 ， 但 理解 损失 中 
涉及 的 参数 (例如 KK) 很 重要 。 sampled softmax 损失 通过 考虑 两 种 类 型 的 实体 来 计算 损失 : 


e ”由 预测 向 量 (上 下 文 窗口 中 的 词 ) 中 的 真实 上 下 文 词 ID 给 出 的 索引 。 
e 词 四 表示 的 KK 个 索引 ， 被 认为 是 噪声 (上下文 窗 口 之 外 的 词 ) 。 


负 采 样 是 噪声 对 比 估 计 (Noise-Contrastive Estimation NCE) 方法 的 近似 ， 根 据 NCE n] An, 
一 个 好 的 模型 应 该 通过 逻辑 回归 来 区 分 真实 数据 和 噪声 , 实际 上 负 采 样 既 很 好 地 保留 了 模型 的 性 能 
又 很 好 地 做 到 有 效 损失 的 近似 。 

结合 上 面 的 例子 来 说 明 这 一 点 ， 如 图 4-16 所 示 。 
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The cat pushed ithe glass off the table 


Positive gne] cat 
Samples 
cat | pushed 
Negative 
Samples cat glass 


4-16 softmax 层 负 采 样 示例 
2. 多 层次 softmax ( Hierarchical softmax ) 


多 层次 softmax (H-softmax) 是 Morin 和 Bengio 受到 二 叉 树 启发 而 得 出 的 方法 。 从 根本 上 来 
说 ，H-softmax 是 用 词语 作为 叶子 的 多 层 结构 来 蔡 代 原 softmax 的 一 层 ， 如 图 4-17 所 示 。 


NO dc 
节点 1 叶子 wa 
y —4 P(qo=0) P(eAX)—,43 P(qo—1) 
叶子 wi Wow. 


P(exn)—,., P(qi—9O)  P(w»o)—,,P(q,—1) 
图 4-17 多 层次 softmax 图 示 

这 样 一 来 , 对 于 单个 词 出 现 概率 的 计算 就 可 以 被 分 解 为 一 连 串 的 概率 计算 , 我 们 也 就 无 须 再 对 
所 有 词 进行 高 成 本 的 标准 化 计算 处 理 。 用 H-softmax 来 替代 单一 的 softmax 层 可 以 大 大 提升 预测 
词 的 速度 ， 有 研究 表明 ， 至 少 带 来 50 倍 的 提升 ， 因 此 特别 适用 于 要 求 低 延迟 的 工作 任务 ， 比 如 谷 
歌 的 新 通信 软件 Allo 的 实时 沟通 功能 便 是 如 此 。 

我 们 如 果 把 常规 的 softmax 层 想象 成 只 有 一 层 的 树 , 每 个 V 中 的 词 均 是 一 个 叶子 节点 , 那么 在 
计算 一 个 词 softmax 层 的 概率 时 ， 就 需要 标准 化 所 有 |V|I 个 叶子 的 概率 ， 显 然 计 算 成 本 非常 高 。 如 果 
把 softmax 层 当成 每 个 词 都 是 叶子 的 一 棵 二 叉 树 ， 则 只 需要 从 叶子 节点 开始 沿 着 树 的 路 径 行走 ， 就 
可 以 抵达 指定 的 词 ， 而 无 须 考虑 其 他 词 ， 显 然 这 种 方法 更 佳 。 

多 层次 softmax 比 负 采 样 略 微 复杂 ， 但 与 负 采 样 的 目标 相同 。 与 负 采 样 的 不 同 之 处 是 多 层次 
softmax 仅 使 用 实际 数据 而 不 需要 噪声 。 我 们 通过 一 个 例子 来 做 进一步 解读 。 例如, 有 下 面 一 句 话 : 


I like NLP. Deep learning is amazing. 


上 面 这 个 句子 的 词汇 如 下 : 
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I, like, NLP, Deep, learning, is, amazing 


使 用 这 个 词汇 表 ， 可 以 构建 一 棵 二 又 树 ， 其 中 词汇 表 中 的 所 有 词 都 以 叶子 节点 的 形式 出 现 。 我 
们 还 将 添加 一 个 特殊 的 标记 PAD， 以 确保 所 有 树叶 都 有 两 个 成 员 ， 如 图 4-18 所 示 。 
每 个 softmax 节 点 表示 为 给 定单 词 选择 左 / 右 分 支 的 概率 。 例 如 P(right at 2|NLP)=1-P(left at 2|NLP) 


depth —log;(V ) 


I like NLP deep learning is amazing PAD 


V 
图 4-18 所 有 词 以 叶子 节点 出 现 
接着 ， 最 后 一 个 隐藏 层 将 完全 连接 到 层次 结构 中 的 所 有 节点 。 这 里 与 经 典 的 softmax 层 相 比 ， 
该 模型 具有 相似 的 总 权重 值 ， 但 是 ， 对 于 给 定 的 计算 ， 它 仅 使 用 其 中 一 部 分 。 
如 果 我 们 要 计算 P (NLP | like) 的 概率 ， 只 需要 一 个 权重 值 子 集 来 计算 概率 即 可 ， 其 中 like 
是 输入 词 ， 如 图 4-19 所 示 。 


ABMA (Z; ) 


I like NLP deep learning is amazing PAD 
图 4-19 利用 权重 值 子 集 来 计算 概率 
具体 来 说 ， 计 算 概率 如 下 : 
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(NLP | like ) = P ( left at 1] like ) XP ( right at 2 | like ) X P ( left 
at 5 | like ) 


由 于 知道 了 如 何 计算 PO， 我 们 便 可 以 使 用 原始 损失 函数 。 注 意 ， 该 方法 仅 使 用 连接 到 路 径 中 
节点 的 权重 值 进 行 计算 ， 从 而 使 得 计算 效率 很 高 。 

尽管 多 层次 softmax 是 有 效 的 ,但 是 一 个 重要 的 问题 仍然 值得 注意 , 那 就 是 如 何 确定 树 的 分 解 。 
更 准确 地 说 ， 哪 个 词 会 跟随 哪个 分 支 。 下 面 给 出 两 个 解决 方案 。 

COD 随机 初始 化 层次 结构 : 事实 上 ， 此 方法 会 使 模型 的 一 些 性 能 下 降 ， 因 为 无 法 保证 随机 分 
配 在 词 之 间 的 分 支 是 最 佳 的 。 

(2) (E WordNet 确定 层次 结构 : WordNet 可 用 于 确定 树 中 词 的 合适 顺序 。 该 方法 明显 表现 
出 比 随机 初始 化 更 好 的 性 能 。 


4.2.7 利用 TensorFlow 实现 Skip-Gram 模型 


接 下 来 我 们 将 使 用 TensorFlow 来 实现 Skip-Gram 算法 。 在 这 里 ， 我 们 将 仅仅 讨论 涉及 定义 
TensorFlow 的 操作 以 便 进行 学 习 词 向 量 的 部 分 。 完 整 代码 可 在 ch4 文件 夹 下 的 
4 skip-gram CBOW (improved).ipynb 中 找到 。 

这 里 下 载 的 数据 集 包含 多 个 维基 百科 文章 ， 总 计 大 约 61MB 。 数 据 集 来 源 见 链接 
http://www.evanjones.ca/software/wikipedia2text.html。 

首先 定义 模型 的 超 参 数 。 你 可 以 自由 更 改 这 些 超 参数 的 值 以 查看 它们 如 何 影响 最 终 的 性 能 ( 例 
如 ，batch_size = 16 &K batch size =256) 。 具 体 如 下 : 


batch size = 128 

embedding size = 128 4 词 向 量 的 维 数 

window size = 4 # 左 右 两 边 各 考虑 多 少 个 词 

valid size = 16 # 用 于 评估 相似 性 的 随机 词 集 

# 仅 在 分 布 的 头 部 选择 开发 样本 

valid examples = np.array(random.sample(range(valid window), valid size)) 

valid examples = np.append(valid examples, random. sample (range (1000, 
1000-valid window), valid size),axis-0) 


num sampled = 32 # 要 抽样 的 负 样 例 数量 
接 下 来 ， 为 训练 输入 数据 集 、 标 签 和 有 效 输 入 定义 TensorFlow 占 位 符 : 


train dataset = tf.placeholder(tf.int32, shape-[batch size]) 
train labels - tf.placeholder(tf.int32, shape-[batch size, 1]) 
valid dataset = tf.constant(valid examples, dtype-tf.int32) 


然后 ， 为 词 嵌入 层 和 softmax 层 的 权重 值 及 偏差 定义 TensorFlow 变量 : 


embeddings = tf .Variable (tf.random uniform([vocabulary size, embedding size], 


—1.0, 1.0)) 
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softmax weights = tf.Variable(tf.truncated normal([vocabulary size, 
embedding size], stddev-0.5 / math.sqrt (embedding size))) 


softmax biases = tf.Variable(tf.random uniform([vocabulary size],0.0,0.01)) 


接 下 来 ， 我 们 将 定义 一 个 词 向 量 查 找 操作 ， 该 操作 收集 指定 训练 数据 集 对 应 的 词 向 量 : 


embed = tf.nn.embedding lookup (embeddings, train dataset) 


之 后 ， 我 们 将 使 用 负 采 样 来 定义 softmax 损失 : 


loss = tf.reduce mean(tf.nn.sampled softmax loss(weights-softmax weights, 
biases-softmax biases,inputs-embed, labels-train labels, 


num sampled-num sampled, num classes-vocabulary size)) 


在 这 里 ， 我 们 定义 一 个 优化 器 来 优化 〈 最 小 化 ) 前 面 定 义 的 损失 函数 。 我 们 也 可 以 尝试 使 用 
https:// tensorflow.google.cn /api guides/python/train 中 列 出 的 其 他 优化 器 进行 试验 : 


optimizer = tf.train.AdagradOptimizer (1.0).minimize (loss) 


计算 验证 输入 词 示例 和 所 有 词 向 量 之 间 的 相似 性 。 使 用 余弦 距离 : 


norm = tf.sqrt(tf.reduce sum(tf.square(embeddings), 1, keepdims-True)) 
normalized embeddings - embeddings / norm 
valid embeddings = tf.nn.embedding lookup (normalized embeddings, 

valid dataset) 


similarity = tf.matmul(valid embeddings,tf.transpose (normalized embeddings)) 


在 定义 了 所 有 TensorFlow 变量 和 操作 后 ， 现 在 可 以 继续 执行 一 些 操作 ， 这 里 会 简要 给 出 这 些 
操作 的 基本 过 程 ， 具 体 的 完整 过 程 请 参见 对 应 的 代码 文件 。 

(1) 使 用 t£global variables initializer() JJ 45 1E, TensorFlow 变量 .rmun0。 

(2) 对 于 每 个 步骤 〈 预 定义 的 总 步骤 数 ) ， 请 执行 以 下 操作 : 


使 用 数据 生成 器 生成 一 批 数据 (batch_data - inputs, batch labels -outputs) 。 
创建 一 个 名 为 feed dict 的 字典 ， 将 训练 输入 /输出 占 位 符 映射 到 数据 生成 器 生成 的 数据 : 


feed dict = {train dataset: atch data, train labels: batch labels} 


执行 优化 步骤 并 获取 损失 值 ， 如 下 所 示 : 


_，1 session.run ([optimizer, loss], feed dict = feed dict) 


最 终 ，Skip-Gram 模型 借助 FSNE 技术 对 于 相关 数据 进行 可 视 化 后 的 效果 如 图 4-20 所 示 。 
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图 4-20 Skip-Gram 模型 可 视 化 效果 图 示 
将 图 4-20 中 的 部 分 结果 放大 ， 如 图 4-21 所 示 。 
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图 4-21 Skip-Gram 模型 可 视 化 部 分 放大 效果 图 示 
从 放大 的 结果 来 看 ， 这 样 的 分 类 结果 还 是 符合 预期 的 ， 其 余部 分 的 分 类 结果 , 读者 可 以 自行 查 
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4.3 原始 Skip-Gram 模型 和 改进 Skip-Gram 模型 
对 比分 析 


到 目前 为 止 ， 讨 论 的 Skip-Gram 算法 实际 上 是 对 Mikolov 等 人 在 2013 年 出 版 的 原始 论文 中 提 
出 的 原始 Skip-Gram 算法 的 改进 模型 。 在 本 节 中 ， 我 们 先 看 一 下 原始 的 Skip-Gram 算法 。 

原始 Skip-Gram 算法 在 进行 表示 学 习 时 , 没有 使 用 中 间 隐 藏 层 , 所 以 在 代码 实现 过 程 中 不 会 设 
置 softmax weights 和 softmax biases 等 神经 网 络 参数 ， 因 为 它 只 有 输入 层 和 输出 层 ， 如 图 4-22 所 
示 ， 并 定义 了 一 个 从 词 向 量 本 身 派 生 的 损失 函数 。 


优化 嵌入 


HIRA 


图 4-22 不 含 隐藏 层 的 原始 Skip-Gram 算法 
对 于 原始 Skip-Gram 算法 而 言 ， 其 负 采 样 损失 定义 如 下 : 


(N-m) (im) 


10 ena) s, rera 


(i=m+1) G*i^j-zi-m) 
t KE (Cg) (0x90) |logo (7v't9wo)] 


XE, v Jh AN E CN Js ve b i AN Js veo E RETE 48A id BAN Es rhe idw; f id p] E Tf v cu 
对 应 于 输出 词 嵌 入 层 中 词 wi 的 词 向 量 。RB,(w) 是 噪声 分 布 ， 我 们 从 中 对 噪声 样本 进行 采样 。 最 后 ， 
表示 从 下- 负 样 例 获得 的 损失 期 望 〈 平 均值 》。 正 如 我 们 看 到 的 ， 除 了 词 向 量 本 身 之 外 ， 此 等 式 中 
没有 权重 值 和 偏差 。 
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4.3.4 原始 的 Skip-Gram 算法 的 实现 


原始 的 Skip-Gram 算法 在 计算 损失 函数 时 ， 需 要 使 用 TensorFlow 函数 手工 完成 ， 因 为 其 中 缺 
少 内 置 函 数 来 计算 损失 。 完 整 代 码 见 ch4 文件 夹 下 4_ comparison.ipynb 文件 。 
首先 ， 为 输入 数据 集 和 输出 数据 集 各 定义 一 个 占 位 符 : 


train dataset = tf.placeholder(tf.int32, shape-[batch size]) 
train labels - tf.placeholder(tf.int64, shape-[batch size, 1]) 


通过 定义 输入 和 输出 占 位 符 ， 我 们 可 以 调用 TensorFlow 内 置 函 数 candidate sampler 进行 负 采 
样 ， 代 码 如 下 所 示 : 


negative samples, , _ = tf.nn.log uniform candidate sampler( 
train labels, num true-l, 
num sampled-num sampled, 
unique-True, 


range max-vocabulary size) 


在 这 里 ， 我 们 统一 对 负 样 例 进 行 抽 样 。 接 着 ， 我 们 有 num true 的 数量 ， 它 表示 给 定数 据点 的 
真实 类 的 数量 。 接 下 来 是 我 们 想 要 一 批 数 据 的 负 样 本 数 (num sampled) ， 而 unique 参数 来 定义 
负 样本 是 否 应 该 是 唯一 的 。 最 后 ，range_max 定义 一 个 词 具有 的 最 大 ID, 使 得 采样 时 避免 采 到 无 效 
词 ID。 

模型 除去 softmax 的 权重 值 和 偏差 之 后 ， 我 们 引入 两 个 词 嵌入 层 ， 一 个 用 于 和 输入 数据 ， 另 一 个 
用 于 输出 数据 。〈 这 里 需要 两 个 词 嵌 入 层 ， 因 为 只 有 一 个 词 嵌入 层 ， 损 失 函 数 将 不 起 作用 。) 

接 下 来 , 将 编写 代码 中 最 重要 的 部 分 一 一 定义 损失 函数 。 这 段 代 码 实现 了 我 们 前 面 讨 论 过 的 损 
失 函 数 。 但 是 ,我 们 不 会 立即 计算 文档 中 所 有 词 的 损失 ， 因 为 如 果 文 档 太 大 的 话 可 能 会 引起 内 存 滋 
出 。 因 此 ， 我 们 将 会 计算 单个 时 间 步 长 内 的 小 批量 数据 的 损失 。 完 整 代码 可 在 ch4 文件 夹 中 的 
4 word2vec improvements.ipynb 文件 中 找到 : 


# 计算 正 样本 的 损失 
loss = tf.reduce mean( 
tf.log( 
tf.nn.sigmoid( 
tf.reduce sum( 
tf.diag([1.0 for _ in range(batch size)])* 
tf.matmul(out embed,tf.transpose(in embed)), 


axis-0) 


) 
) 
二 计算 负 样 本 的 损失 
loss += tf.reduce mean( 


tf.reduce sum( 
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tf.log(tf.nn.sigmoid(-tf.matmul(negative embed,tf.transpose(in embed)))), 
axis=0 


) 


TensorFlow 通过 定义 较 小 的 权重 值 和 偏差 子 集 来 实施 sampled softmax loss， 这 些 权 重 值 


和 偏差 仅 需要 处 理 当前 批量 数据 即 可 。 此 后 ，TensorFlow 计算 类 似 于 标准 softmax XLA 
计算 的 损失 , 但 是 由 于 没有 softmax 权重 值 和 偏差 ,因此 我 们 无 法 直接 转换 为 该 方法 来 计 
算 原 始 的 Skip-Gram 损失 。 


4.8.2 将 原始 Skip-Gram 与 改进 后 的 Skip-Gram 进行 比较 


通过 代码 的 运行 , 我 们 针对 原始 Skip-Gram 与 改进 后 的 Skip-Gram 算法 在 计算 损失 效果 上 进行 
了 对 比 ， 详 见 图 4-23。 
原始 与 改进 Skip-Gram 模 型 的 损失 随 着 时 间 的 推移 而 发 生 的 变化 


---- Skip-Gram (改进 的 ) 
一 一 Skip-Gram (原始 的 ) 
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图 4-23 原始 Skip-Gram 与 改进 Skip-Gram 的 损失 变化 
我 们 可 以 清楚 地 看 到 ， 与 没有 隐藏 层 相 比 ， 拥 有 隐藏 层 的 Skip-Gram 算法 会 带 来 更 好 的 性 能 。 
这 也 表明 拥有 更 深层 神经 网 络 结构 的 Skip-Gram 模型 往往 表现 更 好 ， 当 然 对 于 Word2vec 模型 而 言 
也 是 同样 的 道理 。 


44 CBOW 模型 


4.4.1 CBOW 模型 简 述 


这 里 再 简要 提 一 下 Word2vec 模型 结构 Word2vec 是 使 用 单个 隐藏 层 且 完 全 连接 的 神经 网 络 ， 
如 图 4-24 所 示 。 其 中 ， 隐 藏 层 中 的 神经 元 都 是 线性 神经 元 ， 输 入 层 设置 了 与 用 于 训练 的 词汇 中 词 
一 样 多 的 神经 元 ， 隐 藏 层 大 小 与 生成 词 向 量 的 维度 一 致 ， 且 输出 层 的 大 小 与 输入 层 相同 。 因 此 ， 假 
设 用 于 学 习 词 向 量 的 词汇 表 由 个 词组 成 并 且 词 向 量 的 维度 为 W， 则 隐藏 层 连 接 的 输入 大 小 可 以 
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T. 


目 FXN 的 矩阵 WI 表 示 ， 每 行 表示 一 个 词 ， 同 理 ， 可 以 用 NXTV 的 矩阵 WO 来 描述 从 隐藏 层 到 输 
出 层 的 连接 。 在 这 种 情况 下 , WO 和 无 阵 的 每 列表 示 来 自给 定 词汇 表 的 词 。 这 里 使 用 One-hot 编码 ( 独 
热 编码 ) 对 于 所 有 的 输入 进行 编码 。 


图 4-24 Word2vec 概念 图 


在 Skip-Gram 模型 中 ， 我 们 预测 了 目标 词 中 的 上 下 文 词 ， 但 是 ， 在 CBOW 模型 中 ， 我 们 将 从 
上 下 文 词 预测 目标 词 。 让 我 们 通过 下 面 的 句子 来 比较 Skip-Gram 和 CBOW: 


The dog barked at the mailman. 


对 于 Skip-Gram, 数据 元 组 (输入 词 ,输出 词 ), 可 以 表示 为 (dog, the). (dog, barked), (barked, dog) 等 。 

对 于 CBOW， 数 据 元 组 可 以 表示 为 : ([the, barked], dog). ([dog, at], barked) 等 。 

因此 ，CBOW 的 输入 具有 2XmXD 的 维度 ， 其 中 m 是 窗口 大 小 、D 是 词 向 量 的 维度 。CBOW 
的 概念 模型 如 图 4-25 所 示 。 


x, 


LIA 
e» 


| ly, 


9Jy, 


输入 层 隐藏 层 输出 层 


图 4-25 CBOW 概念 结构 示意 图 
在 图 4-25 中 ， 隐 藏 层 的 输出 是 输入 层 处 对 应 上 下 文 词 向 量 的 平均 向 量 。 由 于 CBOW 模型 与 
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Skip-Gram 模型 非常 相似 , 因此 这 里 就 不 再 做 过 多 解读 .下面 ,我 们 将 通过 TensorFlow 来 实现 CBOW 
Tk. CBOW 的 完整 实现 可 以 在 ch4 文件 夹 的 4. skip-gram_ CBOW(improved).ipynb 中 找到 。 


4.4.2 利用 TensorFlow 实现 CBOW 算法 


首先 ， 我 们 定义 相关 变量 ， 这 与 Skip-Gram 模型 的 情况 相同 : 
# 词 嵌入 层 


embeddings = tf.Variable(tf.random uniform([vocabulary size,embedding size], 
-1.0, 1.0, dtype-tf.float32)) 
*softmax 的 权重 值 和 偏差 


softmax weights = tf.Variable(tf.truncated normal([vocabulary size, 
embedding size],stddev-1.0 / 


math.sqrt (embedding size),dtype-tf.float32)) 


softmax biases -tf.Variable(tf.zeros([vocabulary size],dtype-tf.float32)) 

在 这 里 ， 我 们 创建 了 一 组 县 加 的 词 向 量 ， 代 表 了 上 下 文 的 每 个 位 置 。 所 以 我 们 将 有 一 个 矩阵 : 
[batch size, embeddings size. 2 * context_window_size]。 然 后 ,我 们 将 使 用 简化 运算 符 对 最 后 一 个 
轴 上 的 堆 县 词 向 量 进行 平均 ， 以 便 将 堆 秋 矩阵 减 小 为 [batch size, embedding size]: 


stacked embedings = None 
for i in range (2*window size): 
embedding i = tf.nn.embedding lookup (embeddings,train dataset[:,i]) 
X size,y size = embedding i.get shape().as list() 
if stacked embedings is None: 
Stacked embedings = tf.reshape(embedding i,[x size,y size,l1]) 
else: 
Stacked embedings 
-tf.concat (axis-2,values-[stacked embedings,tf.reshape (embedding i, 
[x size,y size,11)1) 
assert stacked embedings.get shape().as list()[2]--2*window size 


mean embeddings = tf.reduce mean(stacked embedings,2,keepdims-False) 


此 后 ， 像 Skip-Gram 模型 一 样 去 定义 损失 函数 和 优化 器 : 


loss = tf.reduce mean( 

tf.nn.sampled softmax loss(weights-softmax weights,biases-softmax biases,in 
puts-mean embeddings, 

labels-train labels,num sampled-num sampled,num classes-vocabulary size)) 


optimizer = tf.train.AdagradOptimizer (1.0) .minimize(loss) 


运行 CBOW 模型 后 ， 最 终 得 到 的 结果 如 下 部 分 展示 ) : 
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第 94000 步 长 上 的 平均 损失 : 2.087824 

第 96000 步 长 上 的 平均 损失 : 2.111227 

第 98000 步 长 上 的 平均 损失 : 2.094030 

第 100000 步 长 上 的 平均 损失 : 2.101904 

与 that 最 接近 的 单词 : which, how, what, heroes, jogaila, pro, acoustics, taxa, 
与 put 最 接近 的 单词 : however, although, though, which, patriots, calories, 


internationalist, thracian, 

与 or 最 接近 的 单词 : and, 3,900, solidifying, and/or, fictions, branching, than, 
afl-cio, 

与 this 最 接近 的 单词 : it, monna, 1786, mesons, another, 2.25, aptera, 
archaefructus, 

与 the 最 接近 的 单词 : macflecknoe, joaquim, spellings, separator, a, tcb, heikki, 
elision, 

与 's 最 接近 的 单词 : ”，s，calabash， arguably, transformative, his, pikes, louis, 

与 in 最 接近 的 单词 : throughout, until, marie, since, axles, outside, during, 
three-tiered, 


这 样 看 来 ， 效 果 还 不 错 。 具 体 结果 ， 读 者 可 以 自行 运行 代码 去 查看 。 
4.5 Skip-Gram 和 CBOW 对 比 
在 介绍 完 Word2vec 的 两 个 模型 之 后 ， 下 面 我 们 分 析 一 下 这 两 个 模型 之 间 的 差异 。 


4.5.1 Skip-Gram 和 CBOW 模型 结构 分 析 


这 里 结合 4.4.1 中 的 例句 (如 图 4-26 所 示 ) 给 定 上 下 文 和 目标 词 ，Skip-Gram 模型 其 实 仅 在 单 
个 [输入 ,输出 ] 元 组 中 关注 目标 词 和 上 下 文中 的 单个 词 ， 而 CBOW 在 单个 样本 中 则 关注 目标 词 和 上 
下 文中 的 所 有 词 。 例 如 ， 短 语 dog barked at the mailman 中 ，Skip-Gram 在 单个 时 间 步 长 内 关注 到 像 
["dog","at"] 这 样 的 输入 输出 元 组 ， 而 CBOW 关注 到 的 则 是 [["dog","barked","the","mailman"],"at"] 这 
样 的 输入 输出 元 组 。 所以， 在 给 定 的 一 批 数据 中 ，CBOW 接收 的 信息 多 于 Skip-Gram。 接 下 来 我 们 
了 解 一 下 这 种 差异 如 何 影响 两 种 算法 的 性 能 。 

所 以 ， 从 两 个 模型 的 实现 视图 来 看 ， 我 们 知道 ，CBOW 模型 在 给 定 的 时 间 里 可 以 获取 更 多 的 
信息 〈 输 入 ) ， 这 样 就 促使 CBOW 在 某 些 条 件 下 性 能 更 优 。 
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(a) Skip-Gram 模型 
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(b) CBOW 模型 


图 4-26 实现 视图 


4.5.2 ”代码 层 面 对 比 两 模型 性 能 


在 训练 模型 的 任务 时 ， 我 们 通过 代码 绘制 了 Skip-Gram 和 CBOW 中 随 着 迭代 次 数 变化 而 产生 
的 损失 情况 ， 如 图 4-27 所 示 ， 完 整 代码 详 见 ch4 文件 夹 中 的 4_comparison.ipynb 文件 。 

显然 ， 我 们 可 以 发 现 ， 随 着 迭代 次 数 的 堆 琶 ，CBOW 模型 的 损失 比 Skip-Gram 模型 的 损失 下 
降 的 速度 快 很 多 。 但 是 ， 就 模型 的 性 能 衡量 而 言 ， 只 关注 损失 本 身 是 不 够 的 ， 因 为 如 果 模 型 过 度 拟 
合 了 训练 数据 ,损失 照样 会 迅速 减少 ,所 以 我 们 还 要 关注 模型 的 另外 一 个 性 能 指标 ， 即 词 向 量 的 质 
量 。 为 了 更 加 直观 地 比较 Skip-Gram 和 CBOW 模型 之 间 的 性 能 情况 ， 这 里 使 用 t-SNE 技术 进行 可 
视 化 对 比 ， 其 运行 结果 如 下 ， 读 者 可 以 自行 执行 代码 进行 查验 。 


我 们 讨论 过 ， 
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Skip-Gram 与 CBOW 模 型 的 损失 随 着 时 间 的 推移 而 发 生 的 变化 
一 Skip-Gram 


m EC 
BRAM (Iterations) 


图 4-27 损失 下 降 : Skip-Gram vs CBOW 
与 Skip-Gram 算法 相 比 ，CBOW 可 以 访问 给 定 [输入 ,输出 ] 元 组 的 指定 目标 词 所 


在 上 下 文 的 更 多 信息 。 可 以 看 到 ， 与 Skip-Gram 模型 相 比 ，CBOW 给 出 的 损失 会 快速 减少 。 尽 管 
如 此 ， 其 实 损失 本 身 并 不 足以 衡量 模型 绩效 ， 因 为 过 度 拟 合 了 训练 数据 ， 损 失 也 会 迅速 减少 。 虽然 
有 一 些 基准 测试 任务 用 于 评估 词 向 量 的 质量 (例如 ， 词 类比 任务 )， 但 我 们 将 使 用 更 简单 的 检查 方 
法 。 为 了 直观 地 检查 学 习 的 词 向 量 ， 以 确保 Skip-Gram 和 CBOW 在 它们 之 间 显 示 出 显著 的 语义 差 
异 ， 这 里 使 用 t-Distributed 随机 邻居 嵌入 〈tSNE) 可 视 化 技术 进行 处 理 ， 详 见 图 4-28 PE MARTI 
运行 效果 图 ) 。 在 图 4-28 中 ， 我 们 可 以 看 到 CBOW 对 于 词 的 聚集 效果 优 于 Skip-Gram， 其 中 词 稀 
玻 地 分 布 在 整个 空间 中 。 因 此 ， 我 们 可 以 说 CBOW 看 起 来 比 Skip-Gram 更 具有 优势 ， 然 而 ， 事 实 
上 这 仅 是 一 个 特例 ， 下 面 会 继续 分 析 。 


Skip-Gram 模 型 采样 t-SNE 技 术 得 到 的 效果 图 CBOW 模 型 采样 t-SNE 技 术 得 到 的 效果 图 
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图 4-28 Skip-Gram 和 CBOW 获得 的 词 向 量 的 t+SNE 可 视 化 效果 图 示 
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4.5.8 Skip-Gram 和 CBOW 模型 训 优 


其 实 , 在 性 能 表现 方面 , Skip-Gram 和 CBOW 之 间 没 有 明确 的 赢家 。 就 像 Mikolov 等 人 在 2013 
年 发 表 的 论文 《Distributed Representations of Words and Phrases and their Compositionality) (Mikolov 
5$, 2013) 中 所 表达 的 那样 ，Skip-Gram 在 语义 任务 中 表现 更 好 ， 而 CBOW 在 句法 任务 中 表现 更 
好 。 但 是 ， 在 大 多 数 任务 中 ，Skip-Gram 似乎 比 CBOW 表现 更 好 ， 这 与 我 们 刚才 的 发 现 显然 有 些 
出 入 。 

各 种 经 验证 据 表明 ,与 CBOW 相 比 ，Skip-Gram 适用 于 大 型 数据 集 ， 并 且 在 论文 《Distribured 
Representations of Words and Phrases and their Compositionality) (Mikolov 等 , 2013) 和 论文 《GloVe: 
Global Vectors for Word Representation) (Pennington ^$, 2014) 中 得 到 了 支持 ， 这 里 通常 使 用 数 
十 亿 个 词 的 语料库 。 由 于 上 面 任务 涉及 的 数据 只 有 数 十 万 个 词 ， 数 据 样本 相对 较 小 ， 所 以 这 时 
CBOW 表现 更 好 。 

为 了 更 好 地 证 实 上 面 的 论述 ， 下 面 我 们 做 进一步 分 析 ， 考 虑 以 下 两 句 话 : 


€ Itis anice day 
© Itis a brilliant day 


对 于 CBOW， 输 入 输出 元 组 如 下 : 


[[It, is, a, day], nice] 
[[It, is, a, day],brilliant] 


而 Skip-Gram 的 输入 输出 元 组 如 下 所 示 : 


[It, nice], [is, nice][a,nice], [day, nice] 
[It, brilliant], [is, brilliant], [a, brilliant], [day, brilliant] 


我 们 希望 模型 能 够 理解 nice 和 brilliant 是 两 个 有 略微 差异 的 单词 Cbrilliant 意味 着 更 好 ) . 3X 
些 在 含义 上 有 细微 差别 的 词 称 为 nuances (细微 之 处 )。 我 们 可 以 看 到 ， 对 于 CBOW 来 说 ,很 有 可 
能 它 会 关注 到 nice 和 brilliant 是 同一 个 对 象 , 因为 它们 的 语义 是 通过 周围 的 单词 CIt is. a 和 day) 
得 到 的 平均 语义 ， 所 以 CBOW 模型 给 出 的 两 个 单词 是 一 样 的 也 就 是 很 自然 的 事情 了 。 对 于 
Skip-Gram， 单 词 nice 和 brilliant 是 与 It、is 和 day 分 开 的 ， 这样 Skip-Gram 更 多 地 关注 起 单词 ( 例 
如 brilliant 和 mnice) 之 间 的 细微 差异 。 

这 里 要 注意 ， 现 实 中 模型 可 能 有 数 百 万 个 参数 ， 要 训练 这 些 模型 ， 需 要 大 量 数据 。CBOW 以 
某 种 方式 只 是 平均 给 定语 境 中 所 有 单词 的 语义 〈 例 如 ，Itis a day 的 平均 语义 ) ; Skip-Gram 会 学 习 
更 细致 的 单词 表示 ， 所 以 Skip-Gram 将 需要 更 多 数据 ， 一 旦 提供 了 足够 多 的 数据 ，Skip-Gram 模型 
就 很 可 能 会 优 于 CBOW 模型 。 
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4.6 词 嵌 入 算法 的 扩展 


Mikolov 等 人 在 2013 年 发 表 的 论文 中 讨论 了 几 种 可 以 进一步 提高 词 嵌入 学 习 算 法 性 能 的 扩展 ， 
虽然 它们 最 初 被 引入 Skip-Gram, 但 它们 也 可 以 扩展 到 CBOW 此 外 , 正如 我 们 已 经 看 到 的 , CBOW 
在 上 面 的 示例 中 存在 优 于 Skip-Gram 算法 的 地 方 ， 本 节 将 继续 使 用 CBOW 来 解读 词 嵌入 (Word 
Embedding) 算法 的 扩展 内 容 。 


4.6.1 使 用 Unigram 分 布 进行 负 采 样 


1. 相关 理论 概要 

负 采 样 的 思想 最 初 来 源 于 一 种 叫 作 Noise-Contrastive Estimation (NCE， 噪 音 对 比 估计 ) 的 算 
法 ， 原 本 是 为 了 解决 那些 无 法 归 一 化 的 概率 模型 的 参数 预 估 问 题 。 与 改造 模型 输出 概率 的 
Hierarchical Softmax 算法 不 同 ，NCE 算法 改造 的 是 模型 的 似 然 函数 。 

由 上 面 的 内 容 , 我 们 知道 ， 当 通过 从 某 些 分 布 采 样 而 不 是 从 均匀 分 布 进行 采样 时 ， 负 采样 的 性 
能 会 更 好 ，Unigram 分 布 就 是 这 样 的 分 布 。 词 wi 的 一 元 概率 由 以 下 等 式 给 出 : 

count(w;) 

XGecorpus) count (w;) 
这 里 ，count(wi) 是 词 wi 在 文档 中 出 现 的 次 数 。 
让 我 们 用 一 个 例子 来 更 好 地 理解 Unigram 分 布 。 考 虑 以 下 句子 : 


U(wi) = 


Bob is a football fan. He is on the school football team. 
TEXX B, His] "football" HJ Unigram 概率 如 下 : 
U ( football ) = 2 /26 = 1/13 
这 样 我 们 可 以 看 出 ， 常 用 词 的 Unigram 概率 会 更 高 ， 但 是 ， 在 现实 工作 任务 中 ， 这 些 常 用 词 
往往 是 无 效 信息 的 词 ， 例 如 a 和 is 等 。 这 样 来 看 ， 在 成 本 优化 期 间 ， 这 种 高 频率 的 词 将 被 更 多 地 
负 采 样 ， 导 致 伟 有 更 多 信息 性 的 词 减少 了 被 负 采 样 的 机 会 。 因 此 ， 在 优化 期 间 ， 需 要 使 用 Unigram 


分 布 进行 负 采 样 在 常用 词 和 罕见 词 之 间 做 好 平衡 ， 从 而 获得 更 好 的 性 能 。 下 面 ， 我 们 来 实现 基于 
Unigram 的 负 采 样 。 


2. 实现 基于 Unigram HAR 
在 这 里 ， 我 们 将 看 到 如 何 使 用 TensorFlow 实现 基于 Unigram 的 负 采 样 : 


unigrams = [0 for in range(vocabulary size)] 
for word,w count in count: 


w idx = dictionary[word] 
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unigrams[w idx] = w count*1.0/token count 


word count dictionary[w idx] - w count 


这 里 ，count 是 一 个 元 组 列表 ， 其 中 每 个 元 组 由 Cword ID, frequency) 组 成 。 该 算法 计算 每 个 
词 的 Unigram 概率 ， 并 将 它们 作为 按 词 索引 排序 的 列表 返回 。 完 整 代码 详 见 ch4 文件 夹 中 
4_comparison.ipynb 文件 。 

接 下 来 ， 我 们 计算 一 个 嵌入 查找 运算 ， 就 像 我 们 通常 为 CBOW 做 的 那样 : 


train dataset = tf.placeholder (tf.int32, shape=[batch size,window size*2]) 

train labels = tf.placeholder(tf.int32, shape-[batch size, 1]) 

valid dataset = tf.constant(valid examples, dtype-tf.int32) 

+ 相关 变量 . 

# embedding, vector for each word in the vocabulary 

embeddings = tf.Variable(tf.random uniform([vocabulary size,embedding size], 
-1.0, 1.0, dtype-tf.float32)) 

Softmax weights -tf.Variable(tf.truncated normal([vocabulary size, 
embedding size], stddev-1.0 / math.sqrt(embedding size), dtype-tf.float32)) 

softmax biases -tf.Variable(tf.zeros([vocabulary size], dtype-tf.float32)) 

stacked embedings - None 


for i in range (2*window size) 
embedding i = tf.nn.embedding lookup (embeddings,train dataset[:,i]) 
x size,y size = embedding i.get shape().as list() 
if stacked embedings is None: 
stacked embedings -tf.reshape (embedding i,[x size,y size,1]) 
else: 


stacked embedings -tf.concat(axis-2,values-[stacked embedings,tf. 
reshape (embedding i,[x size,y size,1])]) 


mean embeddings tf.reduce mean(stacked embedings,2,keepdims-False) 


接 下 来 ， 我 们 将 基于 Unigram 分 布 对 负 样 例 进行 采样 。 为 此 ， 我 们 将 调用 TensorFlow 的 内 置 
函数 tÉnn.fixed unigram candidate sampler: 


candidate sampler = tf.nn.fixed unigram candidate sampler(true classes = 
tf.cast(train labels,dtype-tf.int64),num true = 1, num sampled = 
num sampled,unique = True,range max = vocabulary size, 
distortion-0.75,num reserved ids-0, nigrams-unigrams, 
name-'unigram sampler') 
loss = tf.reduce mean(tf.nn.sampled softmax loss(weights-softmax weights, 
biases-softmax biases, inputs-mean embeddings, 
labels-train labels, num sampled-num sampled, 
num classes-vocabulary size, 


sampled values-candidate sampler)) 
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通常 ， 我 们 的 实现 过 程 会 执行 以 下 步骤 : 
(OD 定义 变量 、 占 位 符 和 超 参数 。 
(2) 对 于 每 批 数 据 ， 会 有 以 下 情况 : 


e ”通过 查找 上 下 文 窗口 每 个 索引 的 词 向 量 并 对 它们 求 平均 来 计算 平均 输入 词 向 量 和 矩阵 。 
通过 负 采 样 计算 损失 ， 根 据 Unigram 分 布 进行 采样 。 
使 用 随机 梯度 下 降 优化 神经 网 络 。 


4.6.2 [EXE 


1. 相关 理论 概要 


降 采 样 ， 也 就 是 我 们 常 说 的 子 采 样 ， 也 有 下 采样 之 说 ， 其 基本 思想 就 是 在 模型 训练 时 根据 概率 
情况 随机 丢掉 高 频 词 〈 通 常 是 一 些 无 效 词 ， 例 如 停顿 词 等 ) 。 在 数学 上 ， 这 是 通过 忽略 语料库 中 词 


序列 中 的 词 wi 来 实现 的 。 
t 
Daiscara (Wi) zb fw) 


其 中 ，! 6e So R0, "HIT Fei nm ied f is CE. f(w;)Jew,tE 
语 料 中 出 现 的 频率 。 这 有 效 地 降低 了 停 用 词 〈 例 如 ，“the”“a”“of”“。” 和 “，”) 的 频率 ， 
从 而 在 数据 集中 创建 更 多 平衡 。 

相关 实验 研究 表明 ， 这 种 降 采 样 技术 可 以 显著 提高 低频 词 词 向 量 的 准确 度 。 

2. 降 采 样 实施 


降 采 样 的 实现 思路 是 从 原始 序列 中 创建 一 个 新 的 词 序列 ， 通 过 从 刚刚 看 到 的 概率 中 删除 序列 中 的 
词 ， 并 使 用 这 个 新 的 词 序列 来 学 习 词 向 量 。 完 整 代码 见 ch4 文件 夹 中 的 4 comparison.ipynb 文件 。 


4.6.3 CBOW 和 其 扩展 类 型 比较 


对 于 CBOW、 基 于 unigram 负 采 样 的 CBOW (Unigram) 、 基 于 Unigram 负 采 样 和 降 采 样 的 
CBOW 的 对 比 ， 通 过 代码 执行 得 到 图 4-29 所 示 的 结果 ， 我 们 从 中 可 以 看 到 随 着 迭代 次 数 的 增加 ， 
各 个 类 型 的 损失 函数 的 变化 情况 。 完 整 代码 见 ch4 文件 夹 中 的 4 comparison.ipynb 文件 。 

通过 图 示 ， 我 们 发 现 一 个 现象 : 基于 Unigram 负 采 样 和 降 采 样 的 CBOW 与 基于 仅 有 Unigram 
负 采 样 的 CBOW 相 比 ， 随 着 迭代 次 数 的 增加 ， 损 失 函 数 的 变化 曲线 基本 一 致 。 然 而 ， 实 际 上 ， 这 
不 应 该 被 误解 为 降 采 样 在 学 习 问 题 的 能 力 上 缺乏 优势 。 之 所 以 有 这 种 特殊 情况 出 现 , 是 因为 与 降 采 
样 一 样 ， 我 们 去 掉 了 许多 无 用 词 〈 无 信息 词 ) 引起 文本 质量 随 之 提升 〈 就 信息 质量 而 言 ) 。 然 而 ， 
这 也 反 过 来 导致 学 习 问题 的 能 力 提升 变 得 更 加 困难 , 因为 在 最 初 的 问题 设置 中 , 词 向 量 有 机 会 在 优 
化 过 程 中 利用 大 量 无 信息 词 ， 而 在 新 的 问题 设置 中 ， 这 种 机 会 变 得 很 少 。 
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原始 CBOW 与 各 类 改进 cBOW 模 型 的 损失 随 着 时 间 的 推移 而 发 生 的 变化 


350 K ---- CBOW 

325 W —- CBOW (Unigram) 

£ol bn — — CBOW (Unigram*Subsampling) 
P 275 

250 

225 

200 


40000 60000 
RAH (Iterations) 


图 4-29 原始 CBOW 及 其 两 个 扩展 类 型 的 损失 变化 
4.7 结构 化 Skip-Gram 和 连续 窗口 模型 


Word2vec 技术 在 获取 词语 义 方面 非常 强大 ， 但 是 它们 并 非 没有 限制 。 例 如 ， 它 们 不 关注 上 下 
文 词 和 目标 词 之 间 的 距离 ,但 是 如 果 上 下 文 词 远 离 目 标 词 ,那么 其 对 目标 单词 的 影响 会 更 小 ,因此 ， 
我 们 需要 讨论 在 上 下 文中 单独 关注 不 同 词 所 在 位 置 的 技术 。Word2vec 的 另 一 个 限制 是 它 在 计算 词 
向 量 时 只 关注 给 定 词 周 围 一 个 非常 小 的 窗口 , 然而, 实际 上 , 应 该 考虑 在 整个 语料库 中 共同 出 现 的 
词 的 方式 来 计算 合适 的 词 向 量 。 因 此 ， 我 们 将 研究 一 种 技术 ， 它 不 仅 可 以 查看 词 的 上 下 文 ， 还 可 以 
查看 词 的 全 局 共 现 信息 。 


4.7.1 结构 化 Skip-Gram 算法 


先前 讨论 的 Skip-Gram 算法 及 其 所 有 变 体 忽略 了 给 定 上 下 文中 词 的 本 地 化 。 换 名 话说， 标准 
Skip-Gram 算法 无 法 利用 上 下 文 词 的 准确 位 置 ， 而 只 能 同等 地 处 理 给 定 上 下 文中 的 所 有 词 。 例 如 ， 
让 我 们 考虑 一 个 句子 : 


The dog barked at the mailman. 


我 们 考虑 目标 词 barked， 那 么 barked XAH E F SCA "the""dog""at" RI"the"*mailman". 我 
们 将 组 成 5 个 数据 点 (“barked”, “the”) 、 (“barked”, “dog”) 、 (“barked”, “at”) 、(“barked”， 
"the") 和 (“barked”，“mailman”) ， 其 中 元 组 的 第 一 个 元 素 是 输入 词 ， 第 二 个 元 素 是 输出 词 。 如 
果 我 们 考虑 来 自 这 个 集合 的 两 个 数据 点 (“barked”，“the”) 和 (“barked”，“dog”) ， 标 准 Skip-Gram 
算法 将 在 优化 过 程 中 平等 对 待 这 两 个 元 组 。 换 句 话 说 ，Skip-Gram 忽略 了 上 下 文中 词 的 实际 位 置 ， 
而 从 语言 学 的 角度 来 看 ， 元 组 (“barked”，“dog”) 显然 比 (“barked”"，“the”) 包含 更 多 的 信息 。 接 
下 来 ， 结 构 化 的 Skip-Gram 算法 将 试图 解决 这 个 限制 。 让 我 们 具体 看 一 下 。 

如 图 4-30 所 示 ， 结 构 化 的 Skip-Gram 算法 使 用 下 面 的 架构 来 解决 上 面 标准 Skip-Gram 算法 遇 
到 的 限制 问题 。 
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通过 优化 Softmax 权 重 和 嵌入 层 来 最 大 限度 地 减少 损失 


图 4-30 ”结构 化 的 Skip-Gram 
如 图 4-30 所 示 ， 结 构 化 Skip-Gram 在 优化 期 间 保留 了 上 下 文 词 的 结构 或 本 地 化 的 形式 ， 但 是 
它 需 要 更 多 的 内 存 空 间 ， 因 为 参数 的 数量 与 窗口 大 小 呈 线 性 关系 。 具 体 来 讲 ,假设 Skip-Gram 模型 
的 窗口 大 小 为 m (目标 词 一 侧 的 词 数量 ) ， 如 果 标 准 Skip-Gram 模型 在 softmax 层 有 了 个 参数 ， 那 
么 结构 化 Skip-Gram 模型 将 有 2mP 个 参数 ， 因 为 我 们 在 上 下 文 窗口 中 为 每 个 位 置 都 设置 了 一 组 P 
参数 。 
关于 损失 函数 ， 标 准 Skip-Gram 模型 的 负 采 样 softmax 损失 函数 如 下 所 示 : 
N-m itm 


J--(u m) 2. 2, ofe(ooreow)) 


i=m+1 jzij-i-m 
k 
F b E (wq-vocabulary-wiw;) log (o (log ity endwa) 
q=1 


而 结构 化 Skip-Gram 使 用 以 下 损失 函数 : 


N-m icm 


/0=> - (or) > >》 otoo(o(toait 650.) 


p= i=m+1 j#ij=i—m 


k 
F D} E(wq-vocabulary-w;w;) log (o (~logity Cend) 
q=1 


这 里 ， 使 用 第 p 组 softmax 权重 值 和 对 应 于 wj 位 置 索引 的 softmax 偏差 来 计算 logitp(xn)owp。 
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完整 实现 代码 ， 可 参考 ch4 文件 夹 中 的 4_word2vec_extended.ipynb 文件 。 
首先 ， 我 们 将 定义 输入 和 输出 占 位 符 : 
train dataset = tf.placeholder(tf.int32, shape-[batch size]) 


train labels = [tf.placeholder(tf.int32, shape-[batch size, 1]) for in 


range (2*window size)] 


然后 我 们 将 从 训练 输入 和 标签 处 开始 定义 计算 损失 : 


# 相关 变量 
embeddings = tf.Variable( 


tf.random uniform([vocabulary size, embedding size],-1.0, 1.0)) 
softmax weights — [tf.Variable(tf.truncated normal([vocabulary size, 
embedding size],stddev-0.5 / math.sqrt(embedding size))) for _ in 
range (2*window size)] 
softmax biases -[tf.Variable(tf.random uniform([vocabulary size],0.0,0.01)) 
for in range(2*window size)] 


# 相关 模型 


embed = tf.nn.embedding lookup(embeddings, train dataset) 
# Compute the softmax loss, using a sample of the negative labels each time. 
loss = tf.reduce sum( 


[ 


tf.reduce mean(tf.nn.sampled softmax loss(weights-softmax weights[wi], 
biases-softmax biases[wi], inputs-embed, labels-train labels[wi], 
num sampled-num sampled, num classes-vocabulary size)) 
for wi in range(window size*2) 
1 
-————————————— 


结构 化 Skip-Gram 解决 了 标准 Skip-Gram 算法 的 一 个 重要 限制 , 即 在 学 习 过 程 中 注意 上 下 文 词 
的 位 置 。 这 是 通过 引入 一 组 单独 的 softmax 权重 值 和 对 上 下 文 每 个 词 位 置 的 偏差 来 实现 的 ， 这 将 有 
助 于 优化 模型 性 能 ， 但 也 因为 参数 的 增加 而 需求 更 多 的 内 存 空 间 。 接 下 来 ， 我 们 将 看 到 与 CBOW 
模型 类 似 的 扩展 。 


472 连续 窗口 模型 


连续 窗口 模型 (Continuous Window Model) 是 类 似 于 结构 化 Skip-Gram 模型 而 扩展 出 的 CBOW 
模型 。 在 原始 CBOW 算法 中 ， 在 传 给 softmax 层 之 前 ， 将 所 有 上 下 文 词 找到 的 词 向 量 进 行 平均 化 
处 理 ， 而 在 连续 窗口 模型 中 ,不 是 对 词 向 量 进行 平均 ,而 是 将 它们 连接 起 来 ， 从 而 产生 mXD 长 的 
词 向 量 ， 其 中 Dem 是 CBOW 算法 的 原始 词 向 量 大 小 Embedding Size) 。 图 4-31 给 出 了 连续 窗口 
模型 结构 。 
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图 4-31 连续 窗口 模型 结构 示意 图 


在 本 节 中 ， 我 们 讨论 了 两 种 扩展 的 Skip-Gram 和 CBOW 算法 ， 这 两 种 变 体 基本 上 利用 了 上 下 
文中 词 的 位 置 ， 而 不 是 同等 地 看 待 给 定 上 下 文中 的 所 有 词 。 接 下 来 ， 我 们 将 讨论 另 一 种 著名 模型 
— —GloVe( Global Vectors Representation, 全 局 向 量 表示 ) 模 型 ,我 们 将 看 到 GloVe 克服 了 Skip-Gram 
和 CBOW 固有 的 某 些 限 制 。 


4.8 GloVe 模型 


关于 学 习 词 向 量 表示 , 这 里 主要 有 两 类 模型 系列 : @D 全 局 矩阵 分 解 方法 , 如 潜在 语义 分 析 (LSA) 
(Deerwester 等 , 1990); @ 局 部 上 下 文 窗口 方法 , 如 Skip-Gram 和 CBOW 模型 (Mikolov 等 ,2013 )。 

但 是 ， 目 前 这 两 类 模型 都 有 明显 的 缺点 ， 例 如 ， 尽 管 LSA 这 样 的 方法 能 有 效 地 利用 统计 信息 ， 但 
它们 在 词类 比 任务 上 的 表现 相对 较 差 ， 这 表明 了 它们 次 优 的 向 量 空间 结构 。Skip-Gran 这 样 的 方法 
可 能 在 词类 比 上 表现 更 好 , 但 它们 在 利用 语料库 的 统计 信息 上 表现 并 不 好 , 因为 它们 是 在 分 离 的 局 
部 上 下 文 窗口 中 训练 的 ,而 不 是 在 全 局 的 共 现 (Co-Occurrence) 计数 上 训练 的 。GloVe 模型 试图 充 
分 整合 利用 这 两 个 领域 一 一 一 种 有 效 利用 全 局 语料库 统计 数据 的 方法 , 同时 以 基于 上 下 文 窗口 的 方 
式 优化 学 习 模型 ， 类 似 于 Skip-Gram 或 CBOW。 

对 于 Glove 模型 而 言 ， 其 主要 目标 是 将 词 进行 向 量化 表示 ， 以 便 使 各 个 向 量 之 间 能 够 尽 可 能 
多 地 涵盖 语 境内 的 语义 和 语法 信息 。 通 过 输入 语料库 而 输出 词 向 量 。 实 现 方法 为 : 首先 基于 整个 语 
料 库 构 建 词 的 共 现 矩阵 ， 然 后 基于 共 现 矩阵 和 GloVe 模型 处 理学 习 词 向 量 。 

滑铁卢 大 学 Vineet John 于 2017 年 4 月 撰写 的 一 篇 论文 (4 Survey of Neural Network Techniques 
for Feature Extraction from Text》 中 提出 ， 任 意 词 之 间 的 关系 都 可 以 通过 研究 它们 的 共 现 概率 与 多 
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个 探测 词 (Probe Word) 之 间 的 比例 来 检验 ， 且 词 向 量 学 习 的 合理 起 点 应 该 是 共 现 概率 的 比例 ， 而 
非 概率 本 身 。 那 么 我 们 可 以 将 这 种 共 现 关 系 表示 成 以 下 形式 : 


Pay 
Fw- wj wy) o Ua 


4.8. 共 现 矩阵 


设 共 现 矩阵 为 世 ， 其 元 素 为 Xe 站。 
这 里 ，X(ij 是 指 在 整个 语料库 中 词 ;和 词 7 共同 出 现在 一 个 窗口 中 的 次 数 。 
下 面 以 一 句 话 为 例 进行 解读 : 


The dog barked at the mailman. 


上 面 这 个 句子 就 是 一 个 语料库 ， 该 语料库 包含 5 个 单词 : the. dog. barked, at. mailman. 
定义 单 侧 窗口 大 小 window size 为 2?， 则 整个 窗口 宽度 (大 小 ) 为 2*window_size 十 1=5， 那 
么 我 们 就 可 以 给 出 窗口 宽度 为 5 的 统计 窗口 ， 具 体 如 表 4-1 所 示 。 


表 4-1 窗口 宽度 为 5 的 统计 窗口 


窗口 标号 中 心 词 窗口 内 容 

0 the the dog barked 

1 dog the dog barked at 

2 barked the dog barked at the 

3 at dog barked at the mailman 
4 the barked at the mailman 

5 mailman at the mailman 


考虑 到 中 心 词 两 侧 保证 至 少 2 个 单词 的 情况 ， 现 在 以 中 心 词 为 at 的 窗口 内 容 为 例 ， 语 境 词 为 
dog barked at the mailman， 则 将 整个 窗口 遍历 一 次 即 可 得 到 共 现 矩 阵 X, WT: 


X 


(atdog) | 


X (atbarked) +-1 


X atthe)! 


X zl 


= 
(at;maitman) 


4.8.2 ”使 用 GloVe 模型 训练 词 向 量 


我 们 假设 ="dog" 和 j="cat"， 且 给 出 一 个 探测 词 k， 那 么 可 以 定义 Pix 为 词 1 和 词 k 在 一 起 出 现 
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的 概率 , Pi 为 词 ] 和 词 k 一 起 出 现 的 概率 。 这 时 , 对 于 k="bark", 它 很 可 能 与 i 一 起 出 现 , 因此 Pi 会 
很 高 ， 然 而 ，k 不 会 经 常 与 j 一 起 出 现 则 导致 低 Bx。 因 此 ， 下 式 成 立 ; 

PVPx>> 1 
WR k —"whiz", 那 它 不 太 可 能 出 现在 i 的 附近 , 因此 将 具有 低 的 Pix; 但 由 于 kk 与 j 高 度 相关 ， 
因此 Pix 的 值 将 很 高 。 所 以 ， 这 会 导致 以 下 结果 : 
Py /Pjy 0 
如 果 k="pet"， 那 它 与 1 和 j 都 有 很 强 的 关系 ， 或 者 k="lawyer"， 其 中 1 和 j 两 者 都 有 最 小 的 相 
关 性 ， 我 们 可 以 得 到 : 
Pix /Py 1 


由 此 我 们 得 知 ， 通 过 统计 彼此 相近 两 个 词 的 频数 可 以 计算 其 对 应 共 现 概率 Pas Pao REME LA 
得 到 二 者 比率 与 1 的 关系 ， 最 终 可 以 得 到 词 之 间 的 关系 情况 。 所 以 ，Px / Px 就 成 为 学 习 词 向 量 的 
重要 方法 ， 下 面 给 出 最 通用 的 表示 形式 : 


P; 
F((w; — w;)w,) = -四 
(m= ww) = Be 
经 过 一 系列 的 推导 ， 我 们 最 终 会 得 到 以 下 损失 函数 ， 
v 
J= 》 fO) WET + bi B, — logxi)? 
a 


关于 这 里 的 推导 过 程 ， 感 兴趣 的 读者 可 以 查看 Jeffrey 等 人 的 论文 《GloVe: Global Vectors for 
Word Representation》， 里 面 给 出 了 详细 的 推导 过 程 。 下 面 我 们 看 看 GloVe 模型 的 实现 。 


4.8.8 GloVe 模型 实现 


这 部 分 的 完整 代码 见 ch4 文件 夹 中 的 4_glove.ipynb 文件 。 
首先 ， 我 们 将 定义 输入 和 输出 : 


train dataset = tf.placeholder(tf.int32, 
shape-[batch size],name-'train dataset') 
train labels = tf.placeholder(tf.int32, 


shape-[batch size],name-'train labels') 


接 下 来 ,我们 将 定义 两 个 不 同 的 词 嵌入 层 : 一 个 用 于 查找 输入 词 ， 另 一 个 用 于 查找 输出 词 。 另 
外 ， 我 们 将 定义 词 向 量 偏差 ， 就 像 我 们 对 softmax 层 的 偏差 一 样 : 


in embeddings = tf.Variable(tf.random uniform([vocabulary size, 
embedding size], -1.0, 1.0), name-'embeddings') 


in bias embeddings - tf.Variable(tf.random uniform([vocabulary size], 
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0.0,0.01, dtype-tf.float32), name-'embeddings bias') 
out embeddings = tf.Variable(tf.random uniform([vocabulary size, 
embedding size], -1.0, 1.0), name-'embeddings') 
out bias embeddings - tf.Variable(tf.random uniform([vocabulary size], 
0.0,0.01, dtype-tf.float32), name-'embeddings bias') 


现在 ， 我 们 将 查找 给 定 输入 词 和 输出 词 〈 标 签 》 对 应 的 词 向 量 : 


embed in = tf.nn.embedding lookup(in embeddings, train dataset) 
embed out = tf.nn.embedding lookup(out embeddings, train labels) 
embed bias in = tf.nn.embedding lookup(in bias embeddings, train dataset) 
embed bias out - tf.nn.embedding lookup(out bias embeddings, train labels) 


此 外 ， 我 们 将 在 损失 函数 中 定义 了 (Xij) Cweights x) IX; (x ij 的 占 位 符 : 


weights x = tf.placeholder(tf.float32, shape-[batch size],name-'weights x') 
x ij = tf.placeholder(tf.float32, shape-[batch size], name-'x ij') 


最 后 ， 我 们 将 定义 完全 损失 函数 ， 如 下 所 示 : 


loss = tf.reduce mean(weights x * (tf.reduce sum(embed in*embed out,axis-1) + 


embed bias in + embed bias out - tf.log(epsilon*x ij))**2) 


在 本 节 中 , 我 们 研究 了 词 嵌 入 的 另 一 个 重要 技术 : GloVe 模型 。 GloVe 相对 于 之 前 的 Word2vec 
技术 ， 主 要 优点 是 它 注重 语料库 的 全 局 和 局 部 统计 学 习 ， 以 便 更 深入 地 学 习 词 向 量 。 由 于 GloVe 
能 够 捕获 有 关 词 的 全 局 信息 ， 因 此 它们 往往 会 提供 更 好 的 性 能 表现 ， 尤 其 是 当 语料库 大 小 增加 时 。 
另外 ， 与 Word2vec 技术 不 同 ，GloVe 不 是 近似 损失 函数 (例如 ， 使 用 负 和 采样 的 Word2vec) ， 而 是 
计算 真实 损失 函数 ， 这 样 对 于 模型 损失 函数 的 优化 会 更 加 有 利 。 


49 使 用 Word2Vec 进行 文档 分 类 


尽管 Word2vec 提供 了 一 种 非常 优雅 的 方法 来 学 习 词 的 数字 表示 , 正如 我 们 在 定量 上 看 到 的 ( 损 
失 值 ) 和 定性 上 看 到 的 (t-SNE int AO ， 仅 仅 进 行 学 习 词 表 示 并 不 足以 说 明 在 现实 世界 中 词 向 量 
的 应 用 能 力 。 其 实 ， 词 嵌入 (Word Embedding) 已 被 用 于 许多 工作 任务 的 词 特征 表示 中 ， 例 如 图 
像 标 题 生成 和 机 器 翻译 。 然 而 ， 这 些 任务 涉及 不 同学 习 模型 的 组 合 〈 例 如 卷 积 神 经 网 络 (CNN) 
和 长 短期 记忆 CLSTMO 模型 或 两 个 LSTM 模型 ) 。 这 些 将 在 后 面 的 章节 中 讨论 。 为 了 理解 词 嵌 入 
的 实际 使 用 方法 ， 这 里 将 使 用 一 个 较为 简单 的 工作 任务 一 一 文档 分 类 。 

文档 分 类 是 NLP 中 最 受 欢 迎 的 任务 之 一 。 文 档 分 类 对 于 处 理 大 量 数据 集合 的 人 员 非 常 有 用 ， 
例如 新 闻 网 站 、 出 版 商 和 大 学 。 因 此 ， 有 意思 的 是 学 习 词 向 量 如 何 通 过 嵌入 整个 文档 而 不 是 词 来 
适应 真实 世界 的 任务 ， 比 如 说 文档 分 类 便 是 如 此 。 

本 节 的 代码 见 ch4 文件 夹 中 的 4 document embedding.ipynb 文件 。 
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4.99.1 数据 集 


对 于 此 任务 ， 我 们 将 使 用 已 组 织 好 的 一 组 文本 文件 ， 这 些 都 是 BBC 的 新 闻 文 章 ， 本 系列 中 的 
每 个 文档 都 属于 以 下 类 别 之 一 : 商业 、 娱 乐 、 政 治 、 体 育 或 技术 。 我 们 使 用 每 个 类 别 中 的 250 个 
文档 , 词汇 量 大 小 为 25000 个 。 此外, 每 个 文档 将 由 < 文档 类 型 > - <id> 标 记 表 示 , 以 便 进 行 可 视 化 。 
例如 ， 娱 乐 部 分 的 第 50 个 文档 将 表示 为 entertainment-50。 应 该 注意 的 是 ， 与 在 实际 应 用 中 分 析 的 
大 型 文本 语料库 相 比 ， 这 是 一 个 非常 小 的 数据 集 。 然 而 ， 目 前 这 个 小 例子 足以 看 到 词 向 量 的 性 能 表 
现 情况 。 

以 下 是 来 自 实际 数据 的 几 个 简短 片段 : 


Business 

Japan narrowly escapes recession 

Japan's economy teetered on the brink of a technical recession in the three months 
to September, figures show. 

Revised figures indicated growth of just 0.1% - and a similar-sized contraction 
in the previous quarter. On an annual basis, the data suggests annual growth of 
just 0.2$,... 

Technology 

UK net users leading TV downloads 

British TV viewers lead the trend of illegally downloading US shows from the 
net, according to research. 

New episodes of 24, Desperate Housewives and Six Feet Under, appear on the web 
hours after they are shown in the US, said a report. Web tracking company Envisional 
said 18% of downloaders were from within the UK and that downloads of TV programmers 

had increased by 150% in the last Year.… 


4.9.2 使 用 词 向 量 对 文档 进行 分 类 


这 里 ， 我 们 看 看 诸如 Skip-Gram 或 CBOW 之 类 的 词 嵌入 方法 是 否 可 以 扩展 到 文档 分 类 或 文档 
聚 类 应 用 中 。 由 于 CBOW 算法 已 被 证 明 在 使 用 更 小 的 数据 集 上 比 Skip-Gram 表现 更 好 ， 因 此 ， 这 
里 我 们 将 使 用 CBOW 算法 。 


(1) 从 所 有 文本 文件 中 提取 数据 并 学 习 词 向 量 。 

(2) 从 已 经 训练 过 的 文档 中 提取 一 组 随机 文档 。 

GO 扩展 学 习 词 向 量 以 嵌入 这 些 选 定 的 文档 。 更 具体 地 说 ， 我 们 将 通过 找到 属于 文档 中 的 所 
有 词 向 量 的 平均 值 来 表示 文档 。 

(4) 使 用 t-SNE 可 视 化 技术 找到 文档 向 量 ， 以 查看 词 向 量 是 否 可 用 于 文档 聚 类 或 分 类 。 

(5) 最 后 ， 可 以 使 用 诸如 K-means 之 类 的 聚 类 算法 来 为 每 个 文档 分 配 标签 。 

1. 学 习 词 向 量 

首先 ， 我 们 将 为 训练 数据 、 训 练 标签 、 验 证 数据 (用 于 监控 词 向 量 ) 和 测试 数据 (用 于 计算 
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测试 文档 的 平均 向 量 ) 定义 多 个 占 位 符 : 


# Input data. 
train dataset = tf.placeholder(tf.int32,shape-[batch size, 2*window size]) 
train labels - tf.placeholder(tf.int32, shape-[batch size, 1]) 
valid dataset = tf.constant(valid examples, dtype-tf.int32) 
test labels = tf.placeholder(tf.int32,shape-[batch size], 
name-'test dataset!) 


接 下 来 ， 我 们 将 为 词汇 表 、softmax 权重 值 和 偏差 定义 词 向 量变 量 〈 用 于 计算 测试 文档 的 平均 
向 量 ) : 

embeddings = tf.Variable(tf.random uniform([vocabulary size,embedding size], 
-1.0, 1.0, dtype-tf.float32)) 

softmax weights = tf.Variable( 


tf.truncated normal([vocabulary size, embedding size], 
stddev-1.0 / math.sqrt (embedding size), dtype-tf.float32)) 


softmax biases = tf.Variable(tf.zeros([vocabulary size], dtype-tf.float32)) 
然后 定义 采样 的 负 softmax 损失 函数 : 


loss = tf.reduce mean(tf.nn.sampled softmax loss(weights-softmax weights, 
biases-softmax biases, inputs-mean embeddings, 


labels-train labels, num sampled-num sampled,num classes-vocabulary size)) 


2. isl NSSSCSERUN. 

为 了 从 词 嵌 入 中 获得 良好 的 文档 嵌入 ， 我 们 将 一 个 文档 中 所 有 词 向 量 平均 化 作为 该 文档 向 量 。 
这 里 我 们 将 分 批 处 理 相关 数据 。 为 此 ， 我 们 需要 完成 以 下 内 容 来 达到 此 目的 。 

对 于 每 个 文档 ， 执 行 以 下 操作 : 

(1) 创建 数据 集 ， 其 中 每 个 数据 点 都 是 属于 文档 的 词 。 

(2) 对 于 从 数据 集中 采样 到 的 小 批量 ， 通 过 对 小 批量 中 所 有 词 向 量 求 平均 来 返 

G) 批量 遍历 测试 文档 并 通过 平均 小 批量 向 量 来 获取 文档 向 量 。 

我 们 将 得 到 的 平均 批量 向 量 如 下 : 


5 
D 


F 均 向 量 。 


mean batch embedding = tf.reduce mean(tf.nn.embedding lookup (embeddings, 
test labels), axis-0) 


mean embeddings - tf.reduce mean(stacked embeddings, 2,keepdims-False) 


接着 ,我 们 将 在 文档 中 所 有 批 次 的 列表 中 收集 这 些 平均 向 量 , 并 将 这 些 平均 向 量 作为 文档 向 量 。 
这 是 获取 文档 向 量 的 一 种 非常 简单 却 强大 的 方法 ， 下 面 就 会 看 到 。 


3. 文档 向 量 的 文档 聚 类 和 t-SNE 可 视 化 
在 图 4-32 F, 我 们 对 CBOW 算法 学 习 的 文档 向 量 进行 了 可 视 化 , 可 以 看 到 该 算法 在 学 习 具 有 


同样 主题 的 文档 方面 上 表现 还 不 错 。 正 如 我 们 之 前 讨论 的 那样 , 在 


类 / 聚 类 方面 ， 这 种 简章 


的 方法 已 被 证 明 是 一 种 非常 有 效 的 方法 。 


4. 检查 异常 值 
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E 以 无 人 监督 的 方式 对 文档 进行 分 


从 图 4-32 可 以 看 出 ， 产 生 异 常 值 的 文档 貌似 不 多 ，sport-130 和 sport-50 就 属于 少见 的 情况 ， 
下 面 我 们 对 于 这 些 文档 的 内 容 进 行 查 看 分 析 ， 以 便 查找 产生 这 种 现象 的 原因 。 


利用 t-SNE 技 术 对 文档 嵌入 进行 可 视 化 处 理 
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图 4-32 文档 向 量 的 文档 聚 类 及 其 t-SNE 可 视 化 
以 下 是 sport-130 文档 的 片段 : 


sport-130 


Weir poised for Sunderland move 


Larne's teenage star Robbie Weir is poised to join Sunderland after turning down 


a move to Stoke City. 


The 17-year-old Irish League midfielder was also being chased by Rangers and 


Fulham, but Mick McCarthy's side appear to have won the race. But Larne boss Jimmy 


McGeough has yet to confirm that Weir is on his way from Inver Park. 


"I heard on 
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Sunday that he has joined Sunderland, but not from the lad himself," he said. ''Robbie 


has an agreement with Larne that he can negotiate with interested clubs. 


本 文档 主要 讨论 爱尔兰 联盟 中 场 球 员 罗 比 威 尔 加 盟 桑 德 兰 事件 的 影响 ， 而 不 是 像 其 他 Sport 文 
档 里 面 在 讨论 具体 的 体育 比赛 的 。 
以 下 是 sport-50 文档 的 片段 : 


IAAF awaits Greek pair's response 

Kostas Kenteris and Katerina Thanou are yet to respond to doping charges from 
the International Association of Athletics Federations (IAAF). 

The Greek pair were charged after missing a series of routine drugs tests in 
Tel Aviv, Chicago and Athens. They have until midnight on 16 December and an IAAF 
spokesman said: "We're sure their responses are on their way." If they do not respond 
or their explanations are rejected, they will be provisionally banned from 


competition. They will then face a hearing in front of the Greek Federation,* 


我 们 可 以 阐明 为 什么 sport-50 远离 其 他 与 体育 相关 的 文章 聚集 在 一 起 。 让 我 们 仔细 看 看 另 一 个 
接近 sport-50 的 文档 ， 即 Entertainment-115: 


Entertainment-115 

Rapper Snoop Dogg sued for 'rape' 

US rapper Snoop Dogg has been sued for $25m (£13m) by a make-up artist who 
claimed he and his entourage drugged and raped her two years ago. 

The woman said she was assaulted after a recording of the Jimmy Kimmel Live TV 
show on the ABC network in 2003. The rapper's spokesman said the allegations 
were "untrue" and the woman was "misusing the legal system as a means of 
extracting financial gain". ABC said the claims had "no merit". The star has 


not been charged by police. 


因此 ， 该 地 区 的 文件 似乎 与 各 种 犯罪 或 非法 指控 有 关 ， 而 不 是 与 体育 或 娱乐 有 关 。 这 使 得 文档 
远离 其 他 典型 的 体育 或 娱乐 相关 文档 进行 聚 类 。 


5. 使 用 K-means 对 文件 进行 聚 类 /分 类 


到 目前 为 止 ， 我 们 已 经 能 够 直观 地 检查 文档 情况 ， 但 是 这 还 不 够 ， 因 为 如 果 有 1000 多 个 文档 
需要 聚 类 /分 类 ， 就 必须 在 视觉 上 检查 1000 次 ， 所 以 我 们 需要 更 自动 化 的 方法 来 实现 这 一 目标 。 

我 们 可 以 使 用 K-means 来 聚 类 这 些 文 档 。 K-means 是 一 种 简单 但 功能 强大 的 技术 ， 用 于 根据 
数据 的 相似 性 将 数据 分 成 组 〈 集 群 ) ， 因 此 类 似 的 数据 将 位 于 同一 组 中 ,不 同 的 数据 将 位 于 不 同 的 
组 中 。K-means 的 工作 方式 如 下 : 

(1) 定义 ， 即 要 形成 的 簇 的 数量 。 我 们 将 其 设置 为 5， 表 示 有 5 个 类 别 。 

(2) 形成 KK 个 随机 质心 ， 它 们 是 簇 的 中 心 。 

(3) 将 每 个 数据 点 分 配给 最 近 的 聚 类 质心 。 
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(4) 将 所 有 数据 点 分 配给 某 个 集群 后 ， 我 们 将 重新 计算 集群 质心 数据 点 的 平均 值 ) 。 
G) 以 这 种 方式 继续 ， 直 到 质心 运动 变 得 小 于 某 个 阔 值 。 


这 里 使 用 scikit-learn 库 来 获得 K-means 算法 。 在 代码 中 ， 如 下 所 示 : 


kmeans = KMeans(n clusters-5, random state-43643, max iter-10000,n init-100, 


algorithm-'elkan') 


最 重要 的 超 参数 是 n_clusters， 它 是 我 们 想 要 形成 的 聚 类 数 。 可 以 使 用 其 他 超 参 数 来 查看 它们 
对 性 能 的 影响 。 有 关 超 参数 的 解释 ， 请 访问 : http;/scikit-learn.org/stable/modules/generated/sklearn. 
cluster.KMeans.html。 
接着 ， 将 用 于 训练 的 文档 分 类 到 具体 类 中 。 我 们 将 获得 表 4-2 中 的 内 容 。 
它 看 起 来 似乎 并 不 完美 ， 但 是 可 以 很 好 地 将 属于 不 同类 别 的 文档 分 类 到 不 同 的 标签 。 
表 4-2 获得 的 内 容 


类 标签 文档 


['business-179', 'entertainment-167', 'politics-5', 'sport-200', 'sport-93', 'sport-105', 


'sport-31', 'sport-173'. 'sport-130". 'sport-34". 'sport-182". 'sport-100' 


['entertainment-79', 'entertainment-88', 'entertainment-105', 'entertainment-59", 


'entertainment-139'". 'entertainment-227', 'entertainment- 126" 
['politics-10', 'politics-78', 'tech-177', 'tech-117', 'tech-101', 'tech-125', "tech-44', 
'tech-103', 'tech-216', 'tech- 195", 'tech-241', tech-151" 


[business-71' 'business-111'  'business-104', 'business-31', 'business-150', 
"business-149', "business-197', "business-120', 'business-79', 'entertainment-205', 


'entertainment-115' 'politics-143',  'politics-121', — 'politics-41', — 'politics-85', 


'politics-46', 'politics-108'. 'politics-156" 


4 [sport-77] 


4.9.3 小 结 


在 本 节 中 ， 我 们 学 习 了 如 何 将 词 嵌入 扩展 到 分 类 / 聚 类 文档 。 首 先 ， 学 习 了 词 嵌 入 。 然 后 ， 我 
们 通过 对 该 文档 中 找到 的 所 有 词 向 量 进行 平均 来 创建 文档 向 量 。 接 着 ， 我 们 使 用 文档 向 量 来 分 类 
聚 类 属于 这 些 类 别 的 BBC 新 闻 文 章 : 娱乐 、 科 技 、 政 治 、 商 业 和 体育 。 在 对 文档 进行 聚 类 之 后 ， 
我 们 看 到 文档 被 合理 地 聚 类 ,使 得 属于 一 个 类 别 的 文档 聚集 在 一 起 。 但是， 对 于 一 些 异 常 文件 , 我 
们 在 分 析 了 这 些 文档 的 文本 内 容 之 后 ， 发 现 这 些 文档 背后 存在 某 些 合理 的 关联 。 
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4.10 总 结 


wA 


在 本 章 中 ， 我 们 研究 了 Word Embedding 的 几 种 重要 模型 : Word2vec (Skip-Gram, CBOW) 
和 GloVe 模型 ， 对 原始 Skip-Gram、 改 进 型 Skip-Gram、 原 始 CBOW、 改 进 型 CBOW 等 之 间 的 性 
能 差异 做 了 对 比分 析 。 为 了 方便 比较 ， 我 们 使 用 了 一 种 流行 的 二 维 可 视 化 技术 t-SNE。 

然后 ， 我 们 又 介绍 了 Word2vec 算法 的 几 个 扩展 ， 以 提高 其 性 能 ， 然 后 是 几 个 基于 Skip-Gram 
和 CBOW 算法 的 新 算法 .结构 化 Skip-Gram 通过 在 优化 期 间 保留 上 下 文 词 的 位 置 来 扩展 Skip-Gram 
算法 , 允许 算法 基于 它们 之 间 的 距离 来 处 理 输入 词 -输出 词 。 相同 的 扩展 也 可 以 应 用 于 CBOW 算法 ， 
这 里 给 出 了 连续 窗口 算法 。 

接 下 来 ， 我 们 讨论 了 另 一 个 词 嵌入 学 习 技 术 : GloVe 模型 。GloVe 通过 将 全 局 统计 数据 合并 到 
优化 中 ， 使 当前 的 Word2vec 算法 更 进一步 ， 从 而 提高 了 性 能 。 

最 后 ， 我 们 讨论 了 使 用 词 向 量 -文档 聚 类 /分 类 的 实际 应 用 ， 发 现 词 向 量 非常 强大 ， 并 且 允 许 我 
们 将 相关 文档 合理 地 聚集 在 一 起 。 

在 下 一 章 中 ， 我 们 将 讨论 深度 学 习 的 代表 算法 之 一 一 一 卷 积 神经 网 络 CCNND. ， 并 将 讲述 如 
何 使 用 CNN 来 利用 句子 的 空间 结构 对 它们 分 类 。 


卷 积 神经 网 络 与 句子 分 类 


在 本 章 中 ， 我 们 将 介绍 一 个 众所周知 的 神经 网 络 一 一 卷 积 神经 网 络 (CNN) ， 根 据 维基 百科 
的 定义 ， 它 是 一 类 深度 前 馈 人 工 神 经 网 络 ， 最 初 是 为 解决 图 像 识 别 等 问题 而 设计 的 ， 以 便 降 低 对 图 
像 数 据 预 处 理 的 要 求 及 避免 复杂 的 特征 提取 。CNN 模型 对 缩放 、 平 移 、 旋 转 等 畸变 具有 不 变性 ， 
有 很 强 的 泛 化 能 力 ， 这 一 点 与 SIFT 等 算法 类 似 ， 所 以 它 也 被 称 为 位 移 不 变 或 空间 不 变 的 人 工 神经 
网 络 (SIANN) 。 而 CNN 最 大 的 特点 是 卷 积 的 权重 值 共享 结构 ， 可 以 大 幅度 减少 神经 网 络 的 参数 
数量 ， 防 止 过 拟 合 ， 同 时 又 降低 了 神经 网 络 模型 的 复杂 程度 ， 这 样 一 来 ,我 们 在 进行 深度 模型 训练 
时 性 能 表现 更 佳 且 又 不 必 担 心 内 存 溢出 。 虽 然 CNN 最 初 主要 是 为 解决 图 像 问题 而 设计 的 ， 但 是 现 
在 它 在 目标 检测 、 视 频 识别 、 推 荐 系统 和 自然 语言 处 理 方面 也 得 到 广泛 的 应 用 。 

在 本 章 中 ， 我 们 会 对 CNN 的 来 龙 去 脉 、 组 成 部 分 、 基 本 运算 单元 、 基 本 原理 进行 详细 解读 ， 
接着 , 我 们 会 分 析 4 类 常见 的 经 典 卷 积 网 络 的 结 架 构 和 特性 ， 最 后 我 们 会 给 出 两 个 应 用 案例 : 手写 
数字 识别 和 基于 卷 积 神经 网 络 的 句子 分 类 。 


51 认识 卷 积 神经 网 络 
5.1.1. 卷 积 神经 网 络 的 历史 演变 


卷 积 神经 网 络 的 理念 起 源 于 早期 科学 家 Sherrington 首次 提出 的 感受 野 概 念 (Receptive Field, 
《Observations on the scratch -reflex in the spinal dog》， 第 一 次 出 版 日 期 为 1906 年 3 月 13 日 )。 
Sherrington(1906) 首 次 使 用 术语 “感受 野 来 描述 可 以 在 狗 身体 上 引起 划 痕 反射 的 皮肤 区 域 .Hartline 
于 1938 年 将 该 术语 应 用 于 单个 神经 元 。 二 十 世纪 五 六 十 年 代 ，Hubel 和 Wiesel 对 皮质 生理 学 使 用 
了 感受 野 组 织 这 个 概念 , 提出 了 这 样 的 理论 : 在 视觉 系统 一 个 层面 上 的 细胞 的 感受 野 是 由 视觉 系统 
较 低层 的 细胞 输入 形成 的 。 通 过 这 种 方式 ,可 以 组 合 小 而 简单 的 感受 野 , 再 形成 大 而 复杂 的 感受 野 。 
后 来 的 研究 人 员 通 过 允许 视觉 系统 的 一 个 层次 的 细胞 受到 来 自 更 高 层次 的 反馈 的 影响 , 阐述 了 这 种 
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简单 的 分 
神经 感知 机 CNeocognitron) 


神经 元 ， 即 S-cell 和 C-cell。 这 里 S-cells 用 于 特征 提取 ， 对 应 现在 主流 卷 积 神经 网 络 中 的 滤波 〈 也 
就 是 卷 积 核 ) 操作 ;  C-cell 用 于 抗 形变 ， 对 应 现在 的 激活 函数 、 最 大 池 化 等 操作 。 

正常 情况 下 ， 一 个 卷 积 神经 网 络 由 多 个 卷 积 层 组 成 ， 而 每 个 卷 积 层 又 会 进行 一 系列 操作 ， 有 具体 
üt: 

CD 通过 多 个 不 同 的 滤波 和 偏差 提取 出 图 像 的 局 部 特征 ， 这 样 每 一 个 卷 积 核 都 会 映射 出 一 个 
新 的 二 维 图 像 。 

(2) 对 于 OD 中 卷 积 核 滤 波 后 的 输出 结果 进行 非 线 性 激活 函数 处 理 。 目 前 ，ReLU 函数 是 最 
流行 的 非 线性 激活 函数 。 

G) 对 于 (2) 中 激活 函数 后 的 结果 再 进行 池 化 操作 〔 降 采样 》。 现 在 多 数 使 用 最 大 池 化 操作 
保留 最 显著 的 特征 ， 并 提升 模型 的 畸变 容忍 能 力 。 


层 排列 〈 来 自 维基 百科 ) 。 二 十 世纪 八 十 年 代 ， 日 本 科学 家 Kunihiko Fukushima 提出 了 
的 概念 ， 被 认为 是 卷 积 网 络 实现 的 最 初 原 型 。 神 经 感知 机 中 包含 两 类 


卷 积 神经 网 络 的 发 展 路 径 如 图 5-1 所 示 。 关 于 卷 积 神经 网 络 的 历史 沿革 路 径 ， 这 里 就 不 做 过 多 


的 解读 了 


912 


最 初 
积 窗口 或 


两 条 路 线 的 集成 ， 训 练 更 深 
的 网 络 结构 ， 加 速 收敛 


增强 卷 积 模块 功能 


从 分 类 任务 到 检测 任务 


增加 新 的 功能 单元 


Em 


图 5-1 卷 积 神经 网 络 发 展 路 径 图 


卷 积 神经 网 络 结构 简 述 


， 输 入 内 容 被 连接 到 一 组 卷 积 层 ， 这 些 卷 积 层 在 输入 层 上 滑动 一 组 权重 值 (有 时 也 称 为 卷 


过 滤器 ) ， 并 通过 卷 积 操作 的 方式 产生 一 个 输出 。 卷 积 层 使 用 组 织 起 来 的 少量 权 寻 


E (8 DLE 


履 盖 每 层 中 的 一 小 部 分 输入 ,这 一 点 不 像 全 连接 那样 可 以 使 得 这 些 权重 值 在 某 些 维度 〈 例 如 ， 图 像 
的 宽度 和 高 度 尺寸 ) 可 以 实现 共享 。 由 于 CNN 使 用 卷 积 运算 ， 通 过 在 符合 要 求 的 维度 上 滑动 这 个 
值 集 合 来 共享 权重 值 以 便 产 生 输出 ， 最 终 可 以 得 到 卷 积 运算 的 结果 ， 如 图 5-2 所 示 。 如 果 


小 的 权重 
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一 个 卷 积 过 滤器 输出 的 图 案 出 现在 原 图 像 中 , 那么 卷 积 输出 的 是 高 区 位 值 , 反之 , 就 是 低 区 位 值 . 后 
面 会 给 出 数字 化 解释 。 当 然 ， 我 们 也 可 以 发 现 ， 通 过 卷 积 各 运算 之 后 ， 最 后 得 到 了 一 个 矩阵 ， 该 矩 
阵 可 以 展现 出 前 面 映射 过 来 的 图 案 是 否 在 指定 图 像 中 出 现 ， 如 图 5-2 所 示 。 


WW 
* MK 7 Smaller Value » 0 
* wu 7 Large Value >> 0 


Patches of Convolution 
Actual Image s Filters 


图 5-2 卷 积 操作 在 图 像 上 的 展示 
此 外 ， 这 些 卷 积 层 可 选择 与 池 化 / 子 采样 层 混 合 在 一 起 使 用 ， 这 样 就 降低 了 输入 的 维度 。 当 我 
们 进行 降 维 操作 时 ， 不 但 能 迫使 CNN 学 习 较 少 的 信息 ， 而 且 可 以 让 CNN 的 不 变量 进行 转化 ， 从 
而 使 得 模型 得 到 更 好 的 归 一 化 和 正则 化 。 通 过 将 输入 《例如 图 像 ) 分 成 许多 很 小 的 小 块 并 将 每 个 小 
块 转换 成 单个 元 素 ， 维 度 就 被 降低 了 。 在 图 5-3 中 ， 我 们 将 说 明 如 何 进行 池 化 运算 使 CNN 的 不 变 
量 进行 平移 。 


Actual Image Max Pool Output 
Actuel Image Convolution Output Max Pool Output 


(translated on y axis) 
图 5-3 池 化 操作 帮助 CNN 进行 不 变量 平移 


在 图 5-3 中 ， 我 们 有 原始 图 像 和 在 > 轴 上 略微 平移 的 图 像 。 这 两 个 图 像 通 过 卷 积 运算 输出 ， 可 
以 看 到 值 10 出 现在 卷 积 输出 中 稍微 不 同 的 位 置 ,但 是 使 用 最 大 池 化 ( 取 每 个 粗 线 方块 内 的 最 大 值 ? 
后 ， 我 们 可 以 在 最 后 获得 相同 的 输出 。 稍 后 将 详细 讨论 这 些 操作 。 

最 后 ， 上 面 的 输出 被 回馈 到 一 组 全 连接 层 ， 然 后 将 全 连接 层 后 的 输出 转发 到 最 终 的 分 类 /回归 
层 (例如 ,句子 /图 像 分 类 ) 。 正 常情 况 下 ， 全 连接 层 包含 了 CNN 权重 值 总 数 的 大 部 分 ， 而 卷 积 层 
只 有 一 小 部 分 权重 值 。 有 关 研 究 发 现 ， 含 有 全 连接 层 的 CNN 比 没有 全 连接 层 的 CNN 在 性 能 上 表 
现 更 好 。 这 可 能 是 因为 卷 积 层 由 于 尺寸 小 而 学 习 了 更 多 的 局 部 特征 ,而 全 连接 层 则 提供 了 关于 如 何 
将 这 些 局 部 特征 连接 在 一 起 以 产生 预期 的 最 终 输出 的 全 局 图 像 。 图 5-4 显示 了 用 于 对 图 像 进行 分 类 
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的 典型 CNN 架构 。 


= 


Convolutional Convolutional 


RGBInput  Layerwins Fooling Layer with 
Filters uv 10 Filters 


5-4 CNN 典型 架构 


从 5-4 图 中 可 以 明显 地 看 出 ，CNN 在 学 习 期 间 保留 了 输入 的 空间 结构 。 保 留 空 间 结构 将 会 使 
CNN 利用 输入 层 有 价值 的 空间 信息 并 以 较 少 的 参数 学 习 输 入 。 空 间 信息 的 价值 以 图 5-5 为 例 做 简 
要 说 明 。 


十 
EE 局 
图 5-5 将 图 像 展开 成 一 维 向 量 会 丢失 一 些 重要 的 空间 信息 
正如 我 们 所 看 到 的 那样 ， 当 猫 的 二 维 图 像 被 释放 成 为 一 维 向 量 时 ， 耳 人 条 不 再 靠近 眼睛 ,鼻子 也 
远离 眼睛 。 这 意味 着 我 们 在 展开 过 程 中 破坏 了 一 些 有 用 的 空间 信息 。 


我 们 可 以 发 现 , 卷 积 神经 网 络 只 不 过 是 各 层级 网 络 的 功能 和 形式 发 生 了 变化 而 已 , 本 质 上 依旧 
是 层级 网 络 。 结 合 图 5-4 可 知 ， 卷 积 神经 网 络 各 层级 结构 如 下 : 


e 输入 层 / Input Layer. 

卷 积 运算 层 /Convolutional ( CONV ) Layer. 
激励 层 / Activation Function Layer. 

池 化 层 / Pooling Layer. 

全 连接 层 /Fully Connected (FC ) Layer。 


卷 积 神经 网 络 是 一 个 多 层 的 神经 网 络 ， 其 基本 运算 单元 包括 卷 积 运算 、 池 化 运算 、 全 连接 运算 
和 识别 运算 ， 如 图 5-6 所 示 。 
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ERZE. 池 化 运算 - 全 连接 运算 识别 运算 


一 一 > -一 一 一 
Lig (FHRS) L4 206: 22: 22 


图 5-6 卷 积 神经 网 络 的 基本 运算 单元 结构 图 
下 面 针对 上 面 CNN 的 5 个 层级 做 进一步 的 解读 。 


5.2 输入 层 


数据 输入 层 主要 是 对 原始 数据 进行 预 处 理工 作 ， 具 体 如 下 : 


COD 去 均值 处 理 。 我 们 将 对 输入 样本 数据 各 个 维度 进行 中 心 化 为 0 的 处 理工 作 ， 把 输入 样本 
的 中 心 移 到 坐标 系 原点 ， 以 避免 输入 数据 出 现 过 多 偏差 ,影响 训练 效果 ， 这 就 是 去 均值 处 理 。 CNN 
只 对 训练 集 进行 去 均值 处 理 ， 如 图 5-7 所 示 。 

(QD 归 一 化 处 理 。 把 所 有 数据 都 归 一 到 同样 的 取 值 范围 内 ， 即 减少 因 各 维度 数据 取 值 范围 的 
差异 而 带 来 的 干扰 。 

(3) 去 相关 (PCA) /白化 处 理 。 去 相关 就 是 用 PCA 进行 降 维 工 作 。 白 化 是 对 数据 样本 各 个 
特征 轴 上 的 幅度 归 一 化 。 去 相关 与 白化 效果 如 图 5-8 所 示 。 


original data zero-centered data normalized data 


图 5-7 去 均值 与 归 一 化 效果 图 


decorrelated data whitened data 


5-8 ”去 相关 与 白化 效果 图 
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5.3 ” 卷 积 运算 层 


在 本 节 中 ， 我 们 首先 讨论 没有 步 幅 (Stride) 和 填充 (Padding) 的 卷 积 运算 ， 然 后 我 们 将 讨论 
带 步 幅 的 卷 积 运算 和 带 填 充 的 卷 积 运算 ， 最 后 会 讨论 一 些 被 称 为 转 置 卷 积 的 内 容 。 


5.3.04. 标准 卷 积 


卷 积 层 操作 是 CNN 的 核心 部 分 ， 这 一 层 有 两 个 关键 的 操作 : 
COD 局 部 关联 。 每 一 个 神经 元 被 看 作 一 个 过 滤器 (Filter) . 
(2) 感受 野 (Receptive Field) 滑动 (或 称 为 过 滤器 滑动 ), 过 滤器 对 局 部 数据 进行 计算 处 理 。 
对 于 大 小 为 nxn 的 输入 和 mxm 的 过 滤器 (又 称 为 滑动 窗口 或 权重 值 patch 有 的 地 方 也 称 为 神 
经 元 ) ， 其 中 mm. RRRA X, MEEK W, WEH, WERNE G 上 的 输出 如 式 
(5.1) 所 示 。 


haj) = Xia PEI WD XGsk-ij41-1) (5.1) 

RUE, 1S Lj«n-mcl xg j Wa, pilha, j203 46s X. WAHR G, j) 位 置 处 

的 值 。 如 公式 所 示 ， 虽 然 输入 大 小 为 nxn， 但 在 这 种 情况 下 ， 输 出 大 小 将 为 (n - m 1)x(n -m+1)。 
此 外 ，m 被 称 为 过 滤器 大 小 。 下 面 让 我 们 通过 一 个 可 视 化 的 例子 进行 解读 ， 如 图 5-9 所 示 。 


图 5-9 过 滤器 (m) =3 和 单位 步 幅 且 没有 填充 的 卷 积 运算 示例 


这 里 以 图 5-9 中 最 左 侧 图 示 为 例 ， 过 滤器 矩阵 大 小 为 mxm， 即 3x 3 的 矩阵 〈 中 间 位 置 的 蓝 色 
FERE) ， 对 于 输入 大 小 (nxn) 为 4x4 的 矩阵 《最 底部 矩阵 ) 而 言 ， 将 会 得 到 的 输出 矩阵 大 小 为 (n - m 
+ 1)x(n -m+1)， 即 (4 -3+1)x(4-3+1)=2x2 的 输出 矩阵 (最 上 面 的 和 矩阵) 。 利 用 上 面 的 公式 , 我 
们 给 出 经 过 卷 积 运算 后 输出 的 值 ， 具 体 算法 如 下 : 

FE LFL LTA 2E3125 

这 里 的 步 长 为 1， 且 输入 矩阵 没有 被 填充 ， 以 此 类 推 ， 让 过 滤器 在 输入 层 上 逐步 滑动 ， 最 终 对 
整个 输入 层 进行 卷 积 运算 得 到 一 个 确认 的 2x2 输出 匹 阵 。 图 中 的 顶部 矩形 ( 卷 积 运 算 产 生 的 输出 ) 
有 时 被 称 为 特征 映射 。 
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当然 , 对 于 图 像 水 平和 垂直 边缘 检测 而 言 ， 这 里 可 以 通过 水 平 过 滤器 和 垂直 过 滤器 来 实现 。 目 
前 ， 对 于 一 些 常用 的 过 滤器 也 存在 着 不 同 的 争论 ， 但 是 在 CNN 中 我 们 把 这 些 过 滤器 当成 要 学 习 的 
参数 ，CNN 训练 的 目标 就 是 去 解析 过 滤器 的 参数 。 


5.32 ” 带 步 幅 的 卷 积 


1E 5.3.1 节 的 示例 中 , 我 们 只 是 将 过 滤器 移动 了 1 个 步 幅 , 其 实 我 们 也 可 以 做 更 多 步 幅 ( 步 长 ) 
的 移动 。 在 公式 (5.1) 的 基础 上 做 修改 ， 包 括 s; 和 的 步 幅 ， 我 们 可 以 得 到 带 步 幅 的 卷 积 情况 下 
的 输出 大 小 ， 如 公式 (5.2) 所 示 。 


haj = Pk Ply Way XCG-DxsitkG-DxsitD (5.2) 


这 里 ，1 和 i& floor[n — m)/si] + 1^ floor[(n — m)/s;] + 1- 
在 这 种 情况 下 ， 随 着 sz 和 sj 的 大 小 增加 ， 其 对 应 输出 将 变 小 。 下 面 比 较 图 5-9 (stride = 1) 和 图 
5-10 (stride =2) 中 给 出 的 不 同步 幅 的 影响 。 


图 5-10 过 滤器 (m) =2 和 stride =2 且 没 有 填充 的 卷 积 运算 示例 


具体 计算 过 程 与 5.3.1 节 中 类 似 ， 这 里 就 不 再 重复 给 出 了 。 

显然 ， 由 图 5-10 可 知 ， 使 用 步 幅 (Stride〉 进 行 卷 积 运算 有 助 于 降低 输入 样本 数据 的 维度 ， 与 
池 化 运算 功能 类 似 ， 所 以 有 时 也 会 使 用 带 有 步 幅 的 卷 积 代替 CNN 中 的 池 化 运算 ， 因 为 它 降 低 了 计 
算 的 复杂 度 。 


5.3.3” 带 填充 的 卷 积 


在 5.3.1 和 5.3.2 节 中 ， 我 们 分 别 使 用 一 个 3x3 的 过 滤器 和 一 个 2x2 的 过 滤器 对 4x4 的 输入 样 
本 数据 进行 卷 积 运算 ， 均 得 到 了 一 个 2x2 的 输出 ， 输 出 数据 大 小 为 (7 - m  1)x(n - m € 1)。 但 是 ， 
这 样 卷 积 运算 的 缺点 也 很 明显 , 假设 输入 的 样本 是 图 像 数 据 ， 那 么 卷 积 图 像 的 大 小 会 不 断 缩小 , E 
图 像 边界 的 元 素 只 被 对 应 的 一 个 输出 所 使 用 ， 因此， 图 像 边 缘 处 的 像素 在 输出 时 会 减少 ,显然 这 样 
的 运算 使 得 原 图 像 边缘 的 信息 丢失 很 多 。 为 了 解决 这 个 问题 ， 我 们 引入 了 填充 (Padding) 操作 ， 
即 在 图 像 卷 积 运算 之 前 沿 着 图 像 边 缘 均 用 0 值 进行 填充 。 假 设 步 幅 (Stride) 为 1， 输 出 大 小 的 如 
AR (5.3) 所 示 。 
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haj) = Yea ica Wc) XGk-(m-1)j41-(m-1) (5.3) 


这 里 : 1<ij  n; F ipn 或 者 ij<0， 则 xGij) = 0。 
图 5-11 给 出 了 滤波 On) =3、 步 幅 Cs) — 1 且 填 充值 为 0 的 卷 积 运算 。 


这 里 过 滤器 矩阵 大 小 为 3x3, 而 填充 之 后 , 输入 矩阵 大 小 为 6x6, 则 输出 矩阵 大 小 变 为 (6-3+1) 
x (6-3+1) =4x4。 以 图 5-11 中 输入 层 左 上 侧 为 例 ， 计 算 卷 积 之 后 对 应 的 输出 值 大 小 : 

0x2+0x3+0x1+1x0+2x2+3x3+0x2+3x4+1x1=26 

以 此 类 推 ， 让 过 滤器 在 输入 层 上 逐步 滑动 ， 最 终 对 整个 输入 层 进 行 卷 积 运算 得 到 一 个 确认 的 
4x4 输出 和 矩阵。 


5.84 SEE 


尽管 卷 积 运算 在 数学 方面 看 起 来 很 复杂 ， 但 它 可 以 简化 为 矩阵 乘法 ， 这 就 出 现 了 转 置 卷 积 
(Transposed Convolution) 。 简 单 理 解 就 是 ， 对 于 卷 积 在 神经 网 络 结构 中 的 正 向 和 反 向 传播 做 相反 
的 运算 。 现 在 有 如 图 5-12 所 示 的 卷 积 运算 。 


9999 


图 5-12 单位 步 幅 在 4x4 输入 上 3:3 滤波 且 无 填充 (n=4, m=3, s-1Hp- 0 
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以 图 5-11 中 表示 的 卷 积 为 例 ， 通 过 线性 运算 将 输入 和 输出 从 左 到 右 、 从 上 到 下 展开 ， 则 输入 

下 矩阵 被 平坦 化 为 16 维 向 量 ， 输 出 五 被 平坦 化 为 4 维 向 量 ， 该 向 量 随后 被 重新 整形 为 2X2 输出 
和 矩阵， 也 可 以 得 到 展开 后 卷 积 的 稀 足 和 矩阵 4， 如 下 所 示 。 

PC 


= Xi X1,2 X1,3 X1, X23: X227 X23) 32,4, X41) X42) X43) X44 

AGA9 
11 Wi2 Wis 0 Wa wzz wz3 0 Wz Waz W3 0 0 0 0 0 

-| 09 Wa W2 Wis 0 Wa Wa2 Was 0  Wsi Ws2 W3 0 0 0 0 
0 0 0 0 Wa Wi? Wis 0 Wa Wo? wza 0 Wa Waz W3 0 
0 0 0 0 0 wa Wz W3 0 Wa Wo? W3 0  Wsi W32 W33 


HD = A019 xae1) 


其 中 ， 非 零 元 素 是 权重 值 wti,j，(i 和 j 分 别 是 过 滤器 的 行 和 列 〉。 

注意 ， 由 于 本 章节 的 所 有 索引 都 是 从 1 开始 ， 而 不 是 从 0 开始 ， 因 此 上 方 矩阵 是 从 左上 角 wii 
开始 到 右 下 角 wa.3 结 束 。 读 者 也 可 以 查阅 一 下 Vincent Dumoulin 等 人 写 的 《Guide to Convolution 
Arithmetic for Deep Learning) , 文章 里 面 关 于 转 置 卷 积 的 论述 很 好 , 涉及 的 索引 默认 是 从 0 开始 的 。 

现在 ,通过 将 输出 H4D 重 新 整形 为 HC， 我 们 获得 了 卷 积 输出 。 现 在 让 我 们 将 这 个 结果 转 回 
到 nn 和 m: 

通过 将 输入 Xm 马 平坦 化 (展开 为 XD， 并 通过 从 w 创建 箱 阵 AC(r-m+D?m)， 如 前 面 
所 示 ， 我 们 获得 HC"-m+D”D， 然 后 将 其 重新 整形 为 HW-m+1n-m+D。 接 下 来 ， 为 了 获得 转 置 
卷 积 ， 我 们 只 需 转换 4 就 可 以 得 到 如 下 结果 : 

(RP = (ary mm upto mea =A) g 

RE, LEHRER RH 

关于 转 置 卷 积 就 介绍 到 这 里 , 下 面 我 们 将 要 介绍 卷 积 神经 网 络 的 另外 一 个 重要 特性 一 一 参数 共 
享 机 制 。 


5.3.5 ”参数 共享 机 制 | 


CNN 最 大 的 特点 是 卷 积 的 权重 值 共享 结构 ， 可 以 大 幅度 减少 神经 网 络 的 参数 个 数 ， 防 止 过 拟 
合 且 同时 又 降低 了 神经 网 络 模型 的 复杂 程度 , 所 以 我 们 这 里 探讨 一 下 CNN 的 权重 值 共享 机 制 问题 。 
所 谓 权重 值 共享 ， 就 是 针对 一 张 给 定 输入 图 像 用 一 个 过 滤器 (Filter) 去 扫描 ， 过 滤器 里 面 的 数 叫 
作 权重 值 ， 如 果 这 张 图 像 的 每 个 位 置 是 被 同样 的 过 滤器 扫描 ， 则 对 应 权重 值 是 一 样 的 ， 也 就 可 以 说 
是 共享 的 。 举 例 说 明 ， 如 图 5-13 所 示 。 

由 图 5-13 可 知 ， 左 侧 有 一 张 1000x1000 像素 的 图 像 且 有 100 万 个 隐藏 层 神经 元 ， 那 么 如 果 是 
全 连接 的 话 〈 每 个 隐藏 层 神经 元 都 连接 到 图 像 中 的 每 一 个 像素 点 ) ， 这 里 就 有 
1000x1000x1000000=1012 个 连接 ， 那 么 权重 值 参 数 个 数 也 就 是 1012 个 ， 显 然 ， 这 时 的 参数 个 数 太 
多 ， 下 一 步 就 要 减少 参数 。 

图 像 的 空间 联系 是 局 部 的 , 与 一 个 人 通过 一 个 局 部 的 感受 野 去 感受 外 界 图 像 类 似 , 那么 每 一 个 
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神经 元 就 不 必 对 全 局 图 像 做 感受 而 只 对 局 部 图 像 区 域 做 感受 即 可 。 这 样 一 来 , 输出 层 的 每 一 个 像素 
就 只 和 输入 层 图 片 的 一 个 局 部 相连 , 显然 需要 参数 的 个 数 就 会 大 大 减少 。 当 然 , 这些 感受 到 的 局 部 
图 像 区 域 会 在 更 高 层 被 综合 起 来 ， 从 而 得 到 全 局 的 图 像 信 息 。 如 图 5-13 右 图 所 示 ， 局 部 感受 野 是 
fsf BI 10x10， 因 为 隐藏 层 只 需要 与 这 个 fxR10x10) 的 局 部 图 像 相连 接 ， 所 以 100 万 个 隐藏 层 神经 元 
就 只 有 1 亿 个 连接 ， 即 108 个 参数 ， 显 然 参数 个 数 比 原来 少 了 不 少 。 其 实 ， 这 样 的 参数 个 数 还 是 很 
多 ， 我 们 下 面 继续 降低 参数 个 数 。 

其 实 ， 图 像 还 有 另外 一 个 重要 特性 ， 那 就 是 图 像 底层 特征 与 特征 在 图 像 中 的 位 置 无 关 。 例 如 ， 
无 论 是 图 像 中间 的 边缘 特征 还 是 图 像 边 角 处 的 边缘 特征 ,我 们 都 可 以 用 类 似 的 特征 提取 器 进行 特征 
提取 。 对 于 主要 针对 底层 特征 的 前 几 层 网 络 ， 可 以 把 上 面 局 部 全 连接 层 中 的 每 一 个 fxf 的 小 方块 所 
对 应 的 权重 值 进行 共享 ， 以 此 进一步 减少 参数 个 数 。 换 句 话 讲 ， 输 出 层 的 每 一 个 像素 ， 是 由 输入 层 
对 应 位 置 fxf 的 局 部 图 像 与 同一 组 fxf 的 权重 值 做 内 积 ， 再 由 非 线性 单元 计算 得 来 的 。 最 终 ， 无 论 
图 像 起 初 大 小 如 何 ， 只 需要 fxf 个 参数 就 可 以 了 。 因 为 一 组 fxf 参数 只 能 得 到 一 张 特 征 图 (Feature 
Map) ， 所 以 有 几 张 特征 图 再 乘 以 几 就 可 以 得 到 最 终 的 参数 个 数 。 这 里 ， 以 图 5-13 为 例 ， 因 为 隐 
藏 层 每 一 个 神经 元 都 连接 fxK10x10) 的 局 部 图 像 区 域 , 也 就 是 说 每 一 个 神经 元 存在 10x10=100 个 连 
接 权重 值 参 数 , 每 个 神经 元 用 的 是 同一 个 卷 积 核 去 卷 积 图 像 , 所 以 这 里 只 需要 100 个 权重 值 参数 就 
可 以 了 , 这 就 是 权重 值 共 享 。 当 然 , 假设 有 100 组 权重 值 参数 ,那么 我 们 总 共 需 要 100x100— 10000 
个 参数 就 可 以 了 。 当 然 ， 像 人 脸 图 像 这 样 的 高 级 特征 一 般 是 与 位 置 有 关 的 。 眼 睛 和 嘴 的 位 置 不 同 ， 
在 高 层 进行 处 理 时 ,不同 位置 需 要 用 不 同 的 神经 网 络 权 重 值 。 由 于 这 不 是 卷 积 运 算 的 内 容 ， 因 此 这 
里 就 不 做 过 多 阐述 了 。 

FULLY CONNECTED NEURAL NET LOCALLY CONNECTED NEURAL NET 


Example: 1000x1000 image 
1M hidden units 
Mil) 10712 porometersili 


- Spatial correlation is local 
- Better to put resources elsewhere! e 


图 5-13 ”参数 共享 机 制 示例 图 


对 于 RGB 的 彩色 图 像 而 言 ,将 原来 图 像 的 宽度 x 高 度 调整 为 宽度 x 高 度 x 3 (3 是 通道 数 ) 即 可 。 
其 实 , 更 确切 一 点 , 就 权重 值 共 享 而 言 , 它 只 是 在 每 一 个 过 滤器 (Filter) 上 的 每 一 个 通道 CChannel) 
是 共享 的 。 

至 此 ， 我 们 完成 了 卷 积 运算 的 讨论 ， 下 一 步 我 们 将 开启 池 化 运算 。 
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5.4 激活 函数 
5.4.1 常见 激活 函数 及 选择 


常用 的 激活 函数 如 图 5-14 所 示 。 


Activation Functions ie ep 
Sigmoid | 
clz) — 1/(14- e?) -" | E mu 


| Maxout max(w7z+bve7z+b) 
tanh tanh(x) 


ELU — "ot {scmm-y isse 


ReLU max(0,x) 


图 5-14 常见 的 激活 函数 汇总 
在 对 卷 积 层 和 输出 的 结果 进行 非 线性 映射 处 理 时 ， 我 们 多 数 会 据 弃 Sigmoid. tanh 函数 ， 所 以 这 
里 选择 ReLU, Leaky ReLU、Maxout、ELU 四 种 非 线 性 激活 函数 。 
有 了 非 线性 激活 函数 ， 我 们 下 面 给 出 神经 元 处 理 的 相关 流程 〈 结 合 图 5-15 进行 简要 说 明 ， 当 
然 这 里 都 是 非 线性 函数 ) 。 


T wo 


output axon 
activation 
function 


图 5-15 数学 模型 中 神经 元 处 理 的 一 般 流程 
数学 模型 中 神经 元 处 理 的 一 般 流 程 如 下 : 
O) 输入 层 耻 与 对 应 权重 值 做 内 积 (Dot Product， 也 称 为 点 积 ) 处 理 。 
(2) 将 激活 函数 作用 于 上 面 的 内 积 结果 。 
(3) 激活 函数 输出 相应 的 结果 。 
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542 各 个 非 线性 激活 函数 对 比分 析 


1. ReLU 函数 

最 近 几 年 ， ReLU (Rectified Linear Unit) 激活 函数 在 深度 学 习 领域 确实 比较 受 欢迎 ， 它 的 译名 
是 修正 线性 单元 , 这 个 函数 其 实 是 一 个 非 线性 操作 ， 主 要 起 源 于 传统 激活 函数 、 脑 神经 元 激活 频率 
研究 、 稀 玻 激活 性 。 


ReLU 函数 的 数学 表达 式 和 对 应 图 像 如 图 5-16 所 示 。 
f(x) = max(0, x) 


CDI I SED) 


-5 0 5 
图 5-16 ReLU 函数 示意 图 


我 们 发 现 ， 当 x<0 时 ，ReLU 是 硬 饱和 ; 当 x>0 时 ,不 存在 饱和 区 问题 。 因 此 ， 激 活 函数 ReLU 
可 以 在 x>0 时 保持 梯度 不 衰减 , 进而 缓解 梯度 消失 问题 。 这 就 允许 我 们 直接 以 监督 的 方式 训练 深度 
神经 网 络 ,而 无 须 依赖 无 监督 的 逐 层 预 训练 . 随 着 训练 的 不 断 深入 ,存在 部 分 输入 会 落 入 硬 饱和 区 ， 
导致 对 应 权 值 无 法 更 新 。 这 种 现象 被 称 为 “神经 元 死亡 ”。 与 sigmoid 类 似 ，ReLU 的 输出 均值 也 
大 于 0， 偏 移 现 象 和 神经 元 死亡 会 共同 影响 网 络 的 收敛 性 。 

综 上 所 述 ， 我 们 对 ReLU 函数 的 优 缺 点 做 简单 的 总 结 ， 有 具体 如 下 : 


COD 优点 

e UE. Kk RICE. 

e ”梯度 计算 起 来 比较 简单 ， 只 需要 一 个 阅 值 便 可 以 获得 激活 值 。 

(2) 缺点 

© ReLU 有 时 表现 得 很 脆弱 ， 甚 至 进入 死亡 区 。 

€  ReLU 激活 函数 作用 后 的 输出 结果 均值 不 是 0。 

关于 梯度 爆炸 和 梯度 消失 的 理解 ,简单 来 说 , 就 是 在 反 向 传播 算法 过 程 中 ， 因 为 使 用 了 甜 阵 求 
导 链 式 法 则 , 这 里 存在 一 长 串 连 乘 , 当 连 乘 数字 在 每 一 层 均 小 于 1 时 , 就 会 引起 梯度 越 靠 前 乘 越 小 ， 
进而 梯度 消失 ;， 反之， 梯度 越 靠 前 乘 越 大 ， 进 而 梯度 发 生 爆 炸 。 所 以 ， 有 时 ReLU 的 表现 很 脆弱 。 
如 果 在 变量 更 新 很 快 的 情况 下 还 没有 找到 最 佳 值 , 那么 进入 小 于 0 的 分 段 就 会 迫使 梯度 消失 (梯度 
值 变 为 0， ， 也 就 是 这 时 部 分 输入 会 落 入 硬 饱和 区 ， 以 至 于 无 法 实现 继续 再 更 新 ， 所 以 我 们 在 使 用 
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ReLU 激活 函数 时 应 该 控制 好 学 习 率 (Learning Rate) ， 否 则 神经 元 会 有 很 大 的 概率 进入 死 区 。 这 
里 再 强调 一 次 ，ReLU 激活 函数 有 时 表现 得 很 脆弱 ， 但 从 总 体 来 看 ReLU 激活 函数 至 少 解决 了 部 分 
梯度 消失 问题 ， 本 身 还 是 有 很 好 的 应 用 价值 。 

2. ReLU 的 变 体 函数 

针对 在 x<0 的 硬 饱和 问题 ， 我 们 对 ReLU 进行 相应 的 改进 ， 便 得 到 了 改进 后 的 激活 函数 ReLU 
变 体 一 一 PReLU (ParametricRectifier， 参 数 修正 器 ) ， 其 数学 表达 式 如 下 ， 图 像 如 图 5-17 所 示 。 


f(xi) = max(ai, xi) 


图 5-17 ReLU 变 体 函 数 示意 图 

这 里 ，wi 是 可 以 变化 且 能 进行 学 习 的 ，i 表 示 通 道 数 。 

当 wi 的 值 退化 到 0 时 ，PReLU 函数 就 退化 为 ReLU 函数 。 

当 wi 取 一 个 非常 小 的 固定 值 时 〈 比 如 为 0.01) ，PReLU 函数 退化 为 Leaky ReLU (LReLU) i 
数 。 在 这 种 情况 下 ,我 们 能 够 做 到 既 修正 了 数据 分 布 ， 又 保留 了 一 些 负 轴 上 的 值 ， 进 而 保证 了 负 轴 
信息 不 会 全 部 丢失 。 

当 wi 从 高 斯 分 布 中 随机 产生 时 ，PReLU 函数 便 成 了 Randomized Leaky ReLU 函数 。 它 的 基本 
原理 就 是 ， 在 训练 过 程 中 ，wi 在 一 个 高 斯 分 布 中 随机 产生 ， 然 后 对 测试 过 程 进 行 修正 。 

另外 ， 当 不 同 的 通道 使 用 不 同 的 wi 时 ， 参 数 是 很 少 的 。 而 BP 更 新 wi 时 ， 采 用 了 带动 量 的 更 新 
AX. 

3. Maxout 函数 


2013 fF, Goodfellow 将 maxout 和 dropout 结合 后 在 ICML2013 上 提出 了 Maxout 函数 ,并 宣称 
在 MNIST、CIFAR-10、CIFAR-100、SVHN 这 4 个 数据 上 都 取得 了 当时 最 好 (startof-art) 的 识别 
率 。Maxout 函数 的 数学 表达 式 如 下 : 


fi(x) = max; Eux) zi 


或 者 


fi(x) = max(wIx, 十 Diw3 b; ,wIx,tb,) 
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仔细 查看 Maxout 函数 ， 不 难 发 现 Maxout 的 网 络 可 以 接近 任意 连续 函数 ， 几 乎 可 以 涵盖 所 有 
激活 函数 。 当 wo. bo,. iw, b, CO 值 时 ， 便 退化 为 ReLU 函数 。 它 的 拟 合 能 力 非常 强 ， 可 以 拟 合 任意 
凸 函 数 。 

最 后 ， 我 们 会 发 现 ，Maxout 既 有 ReLU 函数 的 优点 (计算 简单 ， 不 会 饱和 ， 避 人 免 梯度 消失 ) 
又 规避 了 ReLU 函数 的 不 足 〈 神 经 元 死亡 ) 。 同 时 ，Maxout 函数 也 不 是 没有 缺点 ， 缺 点 就 是 增加 
了 参数 和 计算 量 。 

4. ELU 函数 


指数 线性 单元 (Exponential Linear Unit, ELU 函数 ) 是 由 Djork-Arné Clevert, Thomas Unterthiner、 
Sepp Hochreiter 在 《Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs))( 最 
新 修订 日 期 为 2016 年 2 月 22 ED. 一 文中 提出 的 ， 其 数学 表达 式 如 下 ， 图 示 如 图 5-18 所 示 。 


f(z)- d -1, z 0 


z, r0 


| EH ji ii 


2 zi 0 1 2 3 
图 5-18 ELU 函数 示意 图 


ELU 函数 其 实 是 整合 了 sigmoid 和 ReLU 两 个 函数 ， 也 可 以 理解 为 对 这 两 个 函数 的 一 般 归 纳 ， 
于 是 便 使 得 其 具有 左 侧 软 饱和 性 、 右 侧 无 饱和 性 的 特性 。 也 就 是 说 ，ELU 函数 的 右 侧线 性 部 分 能 
够 缓解 梯度 消失 而 左 侧 的 软 饱和 又 对 输入 的 内 容 变 化 或 噪声 更 有 和 鲁 棒 性 ， 且 ELU 的 输出 均值 近似 
为 0， 因此 其 收敛 性 更 强 。ELU 函数 中 含有 指数 ， 所 以 其 计算 量 还 是 比较 大 的 。 

至 此 ， 我 们 已 经 将 激活 函数 介绍 完毕 ， 下 面 我 们 将 对 池 化 层 进行 解读 。 


5.5 池 化 层 
5.5.1 理解 池 化 


由 于 图 像 具有 “静态 型 ”属性 ， 因 此 我 们 会 继续 使 用 经 过 卷 积 层 、 激 活 后 的 特征 ， 同 时 也 说 明 
一 个 图 像 区 域 的 特征 有 很 大 概率 同样 适用 于 另 一 个 区 域 。 所 以 ,我 们 在 描述 一 个 图 像 时 ， 就 可 以 对 
图 像 的 不 同 区 域 特征 进行 聚合 统计 〈 一 般 是 矩形 区 域 上 的 统计 ) 。 这 种 聚合 统计 操作 就 是 池 化 。 池 
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化 输出 的 是 邻近 区 域 的 概括 统计 量 。 池 化 有 最 大 池 化 、 平 均 池 化 、 滑 动 平 均 池 化 、 己 范 数 池 化 等 ， 
下 面 主要 介绍 常见 的 最 大 池 化 和 平均 池 化 运算 或 操作 。 


5.5.2 ” 池 化 作用 


CD 不 仅 可 以 在 保留 主要 特征 的 同时 减少 参数 个 数 〈 降 低 维 度 ， 类 似 PCA) 和 计算 量 ， 还 可 

防止 过 拟 合 现象 的 出 现 。 
前 面 我 们 卷 积 运算 得 到 了 相关 特征 (Feature) ， 接 下 来 就 要 用 这 些 特征 去 进行 分 类 。 当 然 可 以 
使 用 所 提取 到 的 特征 去 训练 我 们 的 分 类 器 ， 但 是 这 样 会 使 得 计算 成 本 很 高 。 就 拿 softmax 分 类 器 来 
讲 ， 现 在 有 一 个 100x100 像素 的 图 像 ， 假 如 我 们 已 经 学 习 到 了 500 个 定义 在 8x8 输入 上 的 特征 ， 
则 每 一 个 特征 和 图 像 卷 积 都 会 获得 一 个 (100-8+1) x(100-8+1)=8649 维 的 卷 积 特征 , 又 因 有 500 个 特 
征 , 所 以 每 个 样 例 Cexample ) 就 会 得 到 一 个 (100-8+1) x(100-8+1) x500=4324500 维 的 卷 积 特征 向 量 。 
显然 , 去 学 习 一 个 拥有 超过 400 万 维特 征 向 量 的 分 类 器 难度 不 小 , 且 在 这 种 情况 下 容易 出 现 过 拟 合 
现象 。 

(2) 池 化 运算 可 以 使 得 层次 网 络 对 输入 的 图 像 中 更 小 的 变化 、 宛 余 、 变 换 维持 不 变性 。 输 入 
的 微小 宛 余 将 不 会 改变 池 化 的 输出 ， 因 为 在 局 部 区 域 中 我 们 使 用 了 最 大 化 、 平 均值 等 运算 。 

G) 可 以 帮助 我 们 获得 图 像 最 大 程度 上 的 特征 不 变性 〈Invariance) 。 这 种 不 变性 包括 平移 
CTranslation) 、 旋 转 (Rotation) 、 尺 度 (Scale) 方面 的 不 变性 。 (注意 ， 卷 积 是 对 输入 平移 不 
变性 ， 池 化 是 对 特征 平移 不 变性 。) 

因此 , 池 化 运算 比 没有 填充 的 卷 积 引 起 的 自然 维 数 降低 更 受 欢迎 , 因为 我 们 可 以 决定 在 哪里 减 
小 池 化 层 的 输出 大 小 ， 而 不 是 每 次 强制 它 发 生 。 实际 上 , 没有 填充 的 强制 降 维 在 很 大 程度 上 会 限制 
我 们 在 CNN 模型 中 使 用 的 层 数 。 


更 


5.53 ”最 大 池 化 


最 大 池 化 Max Pooling) 运算 是 在 输出 层 上 选择 已 定义 内 核 中 的 最 大 元 素 作为 结果 来 输出 。 
最 大 池 化 移 位 就 是 输入 层 上 的 窗口 (过 滤器 在 输入 层 上 移动 的 投影 方块 )， 在 移 位 上 选择 最 大 的 元 
素 作为 一 个 输出 。 下 面 给 出 池 化 方程 的 定义 ， 并 以 图 5-19 所 示 为 例 。 
池 化 方程 式 : 
hij= max (X (c. ssi 1) esta)! <(G-DxsttuO-Dxsj+2) = (Dxsit10-Dxsjtm) 
XC-Dxsit2.0-Dxsj+1)’ A A (G-1xsi&2.470xs;&m)' TM A (G-1xsimG-0xs;1)' ME 


X(G-1)xsiem.G-1)xsy&m)) 
这 里 ， 公 式 是 包含 带 步 幅 的 池 化 运算 ， 且 


1 &i&floor[(n — m)/si] * 1 1 Xj &floor|(n — m)/s;] 1 
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Max(1,1,5,6)- 6 


图 5-19 最 大 池 化 运算 示意 图 


在 图 5-19 中 , 步 长 为 2、 过 滤器 为 2x2, 在 输入 层 4x4 矩阵 上 滑动 后 , 将 输入 层 分 成 4 部 分 (已 
标注 不 同 颜色 ) ， 在 每 个 区 域 中 选择 值 最 大 的 元 素 作为 输出 ， 就 会 得 到 右 侧 的 输出 结果 的 汇总 。 


5.54 平均 池 化 


平均 池 化 (Average Pooling) 的 工作 方式 类 似 于 最 大 池 化 ， 只 是 不 采用 最 大 值 ， 而 是 采用 内 核 
中 所 有 输入 的 平均 值 。 考 虑 以 下 公式 : 


_ Xoj’ Xoga’ ii Xegmo1) XD XD Gm De XG moy n Xim- gem) 
"ur mxm 
vi 1,jSn-m+1 
平均 池 运 算 如 图 5-20 所 示 。 


A AT E 
[一 Parra. ye. 
LDLT LLIT 


图 5-20 平均 池 化 示例 图 


5.6 ”全 连接 层 


卷 积 层 和 池 化 层 的 输出 给 出 了 输入 图 像 的 高 级 特征 , 而 全 连接 层 的 目的 是 为 了 对 这 些 特征 进行 
维度 上 的 改变 并 得 到 每 个 分 类 类 别 对 应 的 概率 值 。 稍微 正式 一 点 讲 , 全 连接 层 是 从 输入 到 输出 的 完 
全 连接 的 权重 值 集合 , 这 些 全 连接 的 权重 值 能 够 在 从 每 个 输入 连接 到 每 个 输出 时 学 习 全 局 信息 。 具 
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有 完全 连接 性 的 这 些 层 允 许 我 们 将 全 连接 层 之 前 卷 积 层 所 学 习 的 特征 从 全 局 角度 组 合 起 来 , 从 而 产 
生 有 意义 的 输出 。 下 面 给 出 全 连接 层 的 大 致 直观 图 ， 如 图 5-21 所 示 。 


28 x 28 3x24x 24 8 
3x 12x 12 O 
Q 
H ,Q 
Q 
Q 
(0) 
U Ó 
5X5 local 2x2 max- Ó 
receptive field pooling layer 


fully-connected 
layer 


图 5-21 全 连接 示例 图 
从 根本 上 讲 ， 全 连接 层 就 是 高 度 提纯 的 输入 特征 ， 通 过 最 后 一 层 的 softmax 激活 函数 进行 分 类 
或 回归 。 


57 ”整合 各 层 并 使 用 反 向 传播 进行 训练 


如 上 所 述 ， 卷 积 和 池 化 层 充当 输入 图 像 的 特征 提取 器 ， 而 完全 连接 层 充当 分 类 器 。 
下 面 以 图 5-22 训练 ConvNet 为 例 ， 由 于 输入 图 像 是 船 ， 因 此 对 于 船 (Boat) 这 一 类 的 目标 概 
率 为 1， 对 于 其 他 三 个 类 的 目标 概率 为 0， 即 : 


e 输入 图 像 = 船 
e ”目标 向 量 = [0.0.10] 


Feature Extraction from Image Classification 
图 5-22 训练 ConvNet 
卷 积 神经 网 络 整体 训练 过 程 如 下 : 
(1) 使 用 随机 值 初始 化 所 有 过 滤器 和 参数 /权重 值 。 


(2) 网 络 将 训练 图 像 作为 输入 ， 经 过 前 向 传播 步骤 ( 卷 积 、ReLU 和 池 化 运算 以 及 完全 连接 
层 中 的 前 向 传播 ) ， 并 找到 每 个 类 的 输出 概率 。 
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可 以 说 上 面 船形 图 的 输出 概率 是 [0.2,0.4,0.1,0.3]。 
由 于 在 第 一 个 训练 示例 中 权重 值 是 被 随机 分 配 的 ， 因 此 输出 概率 也 是 随机 的 。 


Go 计算 输出 层 的 总 误差 (所 有 4 个 类 的 总 和 )。 
总 误差 = 了 5% (目标 概率 - 输出 概率 )》? 


(4) 利用 反 向 传播 算法 ， 根 据 网 络 中 所 有 权重 值 计算 误差 的 梯度 ， 并 使 用 梯度 下 降 来 更 新 所 
有 过 滤器 值 /权重 值 和 参数 值 ， 以 最 大 限度 地 减少 输出 误差 。 


e ”权重 值 的 调整 与 它们 对 总 误差 的 贡献 成 比例 。 

@。” 当 再 次 输入 相同 的 图 像 时 ,输出 概率 现在 可 能 是 [0.1,0.1,0.7.0.1], 更 接近 目标 向 量 [0,0,1,0]。 

@ ”这 意味 着 网 络 已 经 学 会 通过 调整 其 权重 值 /过 滤器 来 正确 地 对 该 具体 图 像 进行 分 类 ， 从 而 
减少 输出 误差 。 

@ ”过 滤器 数量 、 过 滤器 大 小 、 网 络 架构 等 参数 都 已 在 步骤 C1) 之 前 得 到 修复 固定 ， 并 且 在 
训练 过 程 中 不 会 发 生变 化 ， 只 更 新 过 滤器 和 矩 阵 和 连接 权重 值 。 


(5) 对 训练 集中 的 所 有 图 像 重 复 步骤 (2) ~ 0D 。 

利用 上 述 步 又 训练 ConvNet, 实际 上 意味 着 ConvNet 的 所 有 权重 值 和 参数 已 经 过 优化 , 可 以 正 
确 分 类 来 自 训练 集 的 图 像 。 

当 一 个 新 的 (未 知 的 ) 图 像 被 输入 到 ConvNet 中 时 ， 图 中 网 络 将 经 历 前 向 传播 步骤 并 输出 每 
个 类 别 的 概率 〈 对 于 新 图 像 ， 和 输出 概率 使 用 已 经 优化 的 权重 值 来 计算 ， 以 便 正 确 分 类 所 有 之 前 的 训 
练 样 例 ) 。 如 果 我 们 的 训练 样本 足够 大 ， 网 络 将 有 机 会 对 新 图 像 有 很 好 的 泛 化 作用 ， 并 把 它们 分 到 
正确 的 类 别 中 去 。 


5.8.1 AlexNet 


1. AlexNet 简 述 


AlexNet 是 由 Hinton 和 他 的 学 生 Alex Krizhevsky 等 人 (论文 署名 是 Alex Krizhevsky. Ilya 
Sutskever 和 Geoffrey E. Hinton, 这 不 是 重点 ,读者 了 解 一 下 即 可 ) 于 2012 年 在 其 经 典 论文 (JmageNet 
Classification with Deep Convolutional Neural Nerworks》 中 提出 的 深度 卷 积 网 络 ， 可 以 看 作 是 Lenet 
的 一 种 加 深 加 宽 版 本 ， 同 时 该 论文 也 是 CNN 领域 的 经 典 之 作 。 对 于 论文 中 提出 的 AlexNet 网 络 ， 
他 们 采用 了 一 系列 新 的 技术 构件 : 成 功 应 用 了 ReLU. Dropout 和 LRN 等 策略 , 第 一 次 使 用 了 GPU 
来 进行 加 速 ， 并 且 作 者 还 开源 了 他 们 在 GPU 上 训练 网 络 的 CUDA 代码 。AlexNet 的 网 络 结构 如 图 
5-23 所 示 ， 整 个 网 络 包含 了 六 亿 三 千 万 个 连接 、 六 千 万 个 参数 和 六 十 五 万 个 神经 元 ， 包 括 5 个 卷 
积 层 〈 图 中 的 CI1、C2、C3、C4、C5) ， 其 中 的 三 个 后 面 还 连接 了 最 大 池 化 层 ， 最 后 还 用 了 3 个 
全 连接 层 (图 中 的 R1I、R2、R3) 。 在 2012 年 ，AlexNet 以 绝对 的 优势 赢得 了 当年 ILSVRC 的 比赛 
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冠军 ，top-5 错误 率 降低 至 16.4%， 相 比 于 第 二 名 26.2% 的 成 绩 有 了 巨大 的 改善 。 正 是 由 于 AlexNet 
的 出 现 ， 处 于 低谷 期 的 神经 网 络 被 再 次 推 到 世人 面前 ， 并 将 深度 学 习 〈 深 度 卷 积 网 络 ) 在 计算 及 视 
觉 领域 置 于 统治 地 位 ， 同 时 加 速 了 深度 学 习 在 语音 识别 、 自 然 语言 处 理 等 领域 的 拓展 应 用 。 


Max 


G3 C4 C5 R1 R2 R3 
图 5-23 AlexNet 网 络 结构 示意 图 (在 两 个 GPU 下 进行 ) 
2. AlexNet 基本 结构 详细 解析 


在 AlexNet 中 ， 对 于 每 次 卷 积 后 的 结果 ， 我 们 都 可 以 在 图 5-23 中 看 到 。 例 如 ， 经 过 卷 积 层 C1 
后 , 原始 的 图 像 变 成 了 55x55 的 尺寸 , 一 共有 96 个 通道 , 分 布 在 2 张 3GB 的 显卡 上 ， 所 以 网 5-23 
中 一 个 立方 体 的 尺寸 是 55x55x48 (48 是 通道 数目 ) ， 而 在 这 个 立方 体 里 面 还 有 一 个 5x5x48 的 小 
立方 体 ， 这 个 就 是 C2 卷 积 层 的 核 尺寸 ，48 是 核 的 厚度 。 这 样 我 们 就 能 看 到 每 一 层 的 卷 积 核 尺 寸 以 
及 每 一 层 卷 积 之 后 的 尺寸 了 。 


大 多 数 情况 下 ， 我 们 看 到 的 AlexNet 网 络 结构 都 是 用 图 5-23 来 表示 的 ， 但 是 实际 上 ， 输 


入 图 像 的 尺寸 不 是 224x224x3， 而 是 227x227x3 ( 其 实 可 以 用 224 的 尺寸 推导 一 下 ,就 会 
发 现 边 界 填充 的 结果 是 小 数 ， 这 明显 是 不 对 的 。 


下 面 我 们 对 ALexNet 网 络 结构 进行 详细 解析 。 

COD 第 一 层 输 入 数据 为 原始 的 227x227x3 的 图 像 ， 这 个 图 像 被 11x11x3 的 卷 积 核 进行 卷 积 运 
算 , 卷 积 核对 原始 图 像 的 每 次 卷 积 都 生成 一 个 新 的 像素 。 卷 积 核 沿 原始 图 像 的 x 轴 方 向 和 y 轴 方 向 
移动 ， 移 动 的 步 长 是 4 个 像素 。 因 此 ， 卷 积 核 在 移动 的 过 程 中 会 生成 (227-11) 二 4+1=55 个 像素 ， 行 
和 列 的 55x55 个 像素 形成 对 原始 图 像 卷 积 之 后 的 像素 层 。 总 计 有 96 个 卷 积 核 ， 会 生成 55x55x96 
个 卷 积 后 的 像素 层 。96 个 卷 积 核 分 成 2 组 ， 每 组 48 个 卷 积 核 ， 则 对 应 生成 2 组 55x55x48 的 卷 积 
后 的 像素 层 数据 。 这 些 像 素 层 经 过 相关 处 理 后 生成 激活 像素 层 ， 尺 寸 仍 为 2 组 55x55x48 的 像素 层 
数据 。 

这 些 像 素 层 经 过 池 化 运算 处 理 〈 池 化 运算 的 尺度 为 3x3， 运 算 的 步 长 为 2) ， 则 池 化 后 图 像 的 
尺寸 为 (55-3) 二 2+1=27。 即 池 化 后 像素 的 规模 为 27x27x96; 然后 经 过 归 一 化 处 理 ， 归 一 化 运算 的 尺 
BEA 5x5; 第 一 卷 积 层 运算 结束 后 形成 的 像素 层 的 规模 为 27x27x96。 分 别 对 应 96 个 卷 积 核 所 运算 
形成 。 这 96 层 像素 层 分 为 2 组 ， 每 组 48 个 像素 层 ， 每 组 在 一 个 独立 的 GPU 上 进行 运算 。 
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反 向 传播 时 , 每 个 卷 积 核对 应 一 个 偏差 值 , 即 第 一 层 的 96 个 卷 积 核对 应 上 层 输入 的 96 个 偏差 
值 。 

(2) 第 二 层 输 入 数据 为 第 一 层 输出 的 27x27x96 的 像素 层 ， 为 便于 后 续 处 理 ， 每 幅 像素 层 的 
左右 两 边 和 上 下 两 边 都 要 填充 2 个 像素 ; 27x27x96 的 像素 数据 分 成 27x27x48 的 两 组 像素 数据 , 两 
组 数据 分 别 在 两 个 不 同 的 GPU 中 进行 运算 。 每 组 像素 数据 被 5x5x48 的 卷 积 核 进行 卷 积 运算 ， 卷 
积 核对 每 组 数据 的 每 次 卷 积 都 生成 一 个 新 的 像素 。 卷 积 核 沿 原始 图 像 的 x 轴 方 向 和 2? 轴 方 向 移动 ， 
移动 的 步 长 是 1 个 像素 。 因 此 ， 卷 积 核 在 移动 的 过 程 中 会 生成 (27-5+2x2)/1+1=27 个 像素 (27 个 像 
素 减 去 5， 正 好 是 22， 加 上 上 下 、 左 右 各 填充 的 2 个 像素 ， 即 生成 26 个 像素 ， 再 加 上 被 减 去 的 5 
也 对 应 生成 一 个 像素 ) 。 行 和 列 的 27x27 个 像素 形成 对 原始 图 像 卷 积 之 后 的 像素 层 。 共 有 256 个 
5x5x48 卷 积 核 ， 这 256 个 卷 积 核 分 成 两 组 ， 每 组 针对 一 个 GPU 中 的 27x27x48 的 像素 进行 卷 积 运 
算 ， 会 生成 两 组 27x27x128 个 卷 积 后 的 像素 层 。 这 些 像素 层 经 过 相关 处 理 后 生成 激活 像素 层 ， 尺 
寸 仍 为 两 组 27x27x128 的 像素 层 。 

这 些 像 素 层 经 过 池 化 运算 的 处 理 〈 池 化 运算 的 尺度 为 3<3， 运 算 的 步 长 为 2)》， 则 池 化 后 图 像 
的 尺寸 为 (57-3) 二 2+1=13, 即 池 化 后 像素 的 规模 为 2 组 13x13x128 的 像素 层 ;然后 经 过 归 一 化 处 理 ， 
归 一 化 运算 的 尺度 为 5x5; 第 二 卷 积 层 运算 结束 后 形成 的 像素 层 的 规模 为 2 组 13x13x128 的 像素 层 ， 
分 别 对 应 2 组 128 个 卷 积 核 运 算 形成 。 每 组 在 一 个 GPU 上 进行 运算 ， 即 共 256 个 卷 积 核 ， 共 2 个 
GPU 进行 运算 。 

反 向 传播 时 ， 每 个 卷 积 核对 应 一 个 偏差 值 ， 即 第 一 层 的 96 个 卷 积 核对 应 上 层 输入 的 256 个 偏 
差 值 。 

G) 第 三 层 输入 数据 为 第 二 层 输出 的 2 组 13x13x128 的 像素 层 ， 为 便于 后 续 处 理 ， 每 幅 像 素 
层 的 左右 两 边 和 上 下 两 边 都 要 填充 1 个 像素 ，2 组 像素 层 数据 都 被 送 至 2 个 不 同 的 GPU 中 进行 运 
算 。 每 个 GPU 中 都 有 192 个 卷 积 核 ， 每 个 卷 积 核 的 尺寸 是 3x3x256。 因 此 ， 每 个 GPU 中 的 卷 积 核 
都 能 对 2 组 13x13x128 的 像素 层 的 所 有 数据 进行 卷 积 运算 。 卷 积 核对 每 组 数据 的 每 次 卷 积 都 生成 
一 个 新 的 像素 。 卷 积 核 沿 像素 层 数据 的 x 轴 方 向 和 y 轴 方 向 移动 ， 移 动 的 步 长 是 1 个 像素 。 因 此 ， 
运算 后 的 卷 积 核 的 尺寸 为 (13-3+1x2) 二 1+1=13 (13 个 像素 减 去 3， 正好 是 10, 加 上 上 下 、 左右 各 填 
充 的 1 个 像素 ， 即 生成 12 个 像素 ， 再 加 上 被 减 去 的 3 也 对 应 生成 一 个 像素 ) ， 每 个 GPU 中 共 
13x13x192 个 卷 积 核 。2 个 GPU 中 共 13x13x384 个 卷 积 后 的 像素 层 。 同 样 ， 这 些 像素 层 经 过 处 理 
后 ， 生 成 激活 像素 层 ， 尺 寸 仍 为 2 组 13x13x192 像素 层 ， 共 13x13x384 个 像素 层 。 

(4) 第 四 层 输 入 数据 为 第 三 层 输 出 的 2 组 13x13x192 的 像素 层 ， 为 便于 后 续 处 理 ， 每 幅 像素 
层 的 左右 两 边 和 上 下 两 边 都 要 填充 1 个 像素 ; 2 组 像素 层 数据 都 被 送 至 2 个 不 同 的 GPU 中 进行 运 
j£. 每 个 GPU 中 都 有 192 个 卷 积 核 ， 每 个 卷 积 核 的 尺寸 是 3x3x192。 因 此 ， 每 个 GPU 中 的 卷 积 核 
能 对 1 组 13x13x192 的 像素 层 的 数据 进行 卷 积 运算 。 卷 积 核对 每 组 数据 的 每 次 卷 积 都 生成 一 个 新 
的 像素 。 卷 积 核 沿 像素 层 数据 的 x 轴 方 向 和 y 轴 方 向 移动 ， 移 动 的 步 长 是 1 个 像素 。 因此， 运算 后 
的 卷 积 核 的 尺寸 为 (13-3+1x2) 二 1+1=13 C13 个 像素 减 去 3， 正 好 是 10， 加 上 上 下 、 左 右 各 填充 的 1 
个 像素 ， 即 生成 12 个 像素 ， 再 加 上 被 减 去 的 3 也 对 应 生成 一 个 像素 ) ， 每 个 GPU 中 共 13x13x192 
个 卷 积 核 。2 个 GPU 中 共 13x13x384 个 卷 积 后 的 像素 层 。 同 样 ， 这 些 像素 层 经 过 处 理 后 生成 激活 
像素 层 ， 尺 寸 仍 为 2 组 13x13x192 像素 层 ， 共 13x13x384 个 像素 层 。 
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(5) 第 五 层 输 入 数据 为 第 四 层 输出 的 2 组 13x13x192 的 像素 层 ， 为 便于 后 续 处 理 ， 每 幅 像素 
层 的 左右 两 边 和 上 下 两 边 都 要 填充 1 个 像素 ; 2 组 像素 层 数 据 都 被 送 至 2 个 不 同 的 GPU 中 进行 运 
算 。 每 个 GPU 中 都 有 128 个 卷 积 核 ， 每 个 卷 积 核 的 尺寸 是 3x3x192。 因 此 ， 每 个 GPU 中 的 卷 积 核 
能 对 1 组 13x13x192 的 像素 层 的 数据 进行 卷 积 运算 。 卷 积 核对 每 组 数据 的 每 次 卷 积 都 生成 一 个 新 
的 像素 。 卷 积 核 沿 像素 层 数 据 的 x 轴 方 向 和 y 轴 方 向 移动 ， 移 动 的 步 长 是 1 个 像素 。 因此， 运算 后 
的 卷 积 核 的 尺寸 为 (13-3+1x2) 二 1+1=13 (13 个 像素 减 去 3， 正 好 是 10， 加 上 上 下 、 左 右 各 填充 的 1 
个 像素 ， 即 生成 12 个 像素 ， 再 加 上 被 减 去 的 3 也 对 应 生成 一 个 像素 ) ， 每 个 GPU 中共 13x13x128 
个 卷 积 核 ,2 个 GPU 中 共 13x13x256 个 卷 积 后 的 像素 层 。 这 些 像 素 层 经 过 处 理 后 生成 激活 像素 层 ， 
尺寸 仍 为 2 组 13x13x128 像素 层 ， 共 13x13x256 个 像素 层 。 

2 组 13x13x128 像素 层 分 别 在 2 个 不 同 GPU 中 进行 池 化 运算 处 理 。 池 化 运算 的 尺度 为 3x3， 
运算 的 步 长 为 2, 池 化 后 图 像 的 尺寸 为 (13-3) 二 2+1=6, 即 池 化 后 像素 的 规模 为 两 组 6x6x128 的 像素 
层 数据 ， 共 6x6x256 个 像素 层 数 据 。 

C6). 第 六 层 输 入 数据 的 尺寸 是 6x6x256， 采 用 6x6x256 尺寸 的 过 滤器 对 第 六 层 的 输入 数据 进 
行 卷 积 运算 ， 每 个 6x6x256 尺寸 的 过 滤器 对 第 六 层 的 输入 数据 进行 卷 积 运算 生成 一 个 运算 结果 ， 
通过 一 个 神经 元 输出 这 个 运算 结果 ; 共有 4096 个 6x6x256 尺寸 的 过 滤器 对 输入 数据 进行 卷 积 运算 ， 
通过 4096 个 神经 元 输出 运算 结果 ; 这 4096 个 运算 结果 通过 ReLU 激活 函数 生成 4096 个 值 ， 并 通 
过 drop 运算 后 输出 4096 个 本 层 的 输出 结果 值 。 

由 于 第 六 层 的 运算 过 程 中 采用 的 过 滤器 的 尺寸 6x6x256) 与 待 处 理 的 特征 图 CFeature Map) 的 
尺寸 6x6x256) 相 同 ， 即 过 滤器 中 的 每 个 系数 只 与 特征 图 中 的 一 个 像素 值 相 乘 ， 而 其 他 卷 积 层 中 
每 个 过 滤器 的 系数 都 会 与 多 个 特征 图 中 像素 值 相 乘 因此， 将 第 六 层 称 为 全 连接 层 。 

第 五 层 输出 的 6x6x256 规模 的 像素 层 数据 与 第 六 层 的 4096 个 神经 元 进行 全 连接 ， 然 后 经 由 
relu6 进行 处 理 后 生成 4096 个 数据 ， 再 经 过 dropout6 处 理 后 输出 4096 个 数据 。 

CD. 第 七 层 输出 的 4096 个 数据 与 第 八 层 的 1000 个 神经 元 进行 全 连接 ， 经 过 训练 后 输出 被 训 
练 的 数值 。 

3. AlexNet 网 络 优势 解析 

前 面 讲 了 一 下 AlexNet 的 基本 网 络 结构 ， 大 家 肯定 会 对 其 中 的 一 些 点 产生 疑问 ， 比 如 LRN, 
ReLU、dropout， 相 信 接 触 过 深度 学 习 的 读者 都 听 说 或 者 了 解 过 这 些 。 这 里 将 详细 讲述 这 些 东 西 为 
什么 能 提高 最 终 网 络 的 性 能 。 

(D ReLU 非 线性 

大 家 可 能 都 知道 ， 在 浅 层 的 神经 网 络 中 ， 引 入 非 线性 操作 〈 也 就 是 通常 说 的 激活 函数 ) 能 够 提 
高 神经 网 络 的 泛 化 能 力 ， 进 而 使 得 神经 网 络 更 具有 和 鲁 棒 性 。 但 是 在 深层 网 络 中 ， 如 果 我 们 选择 tanh 
函数 作为 激活 函数 ， 其 实 会 使 得 模型 的 计算 量 增加 、 训 练 速度 变 慢 。Hinton 等 在 论文 中 引入 ReLU 

(Rectified Linear Units) 来 作为 激活 函数 : 
Relu(x) = max(0, x) 


B 


KIRE, F ReLU 的 深度 卷 积 网 络 比 基 于 tanh 的 网 络 在 训练 上 会 提高 数 倍 。 图 5-24 给 出 了 
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一 个 基于 CIFAR-10 的 四 层 卷 积 网 络 在 tanh 和 ReLU 达到 25% 的 训练 错误 率 (Training Error) 时 的 
XC URL. 


Training error rate 


图 5-24 tanh fil ReLU 达到 25% 的 训练 错误 率 (Training Error). 随 着 迭代 次 数 的 变化 情况 


在 图 5-24 中 ， 实 线 、 虚 线 分 别 代表 的 是 ReLU、tanh 的 训练 错误 率 的 情况 ， 可 以 发 现 ，ReLU 
LE tanh 收敛 更 快 。 

之 所 以 会 出 现 图 5-24 中 的 现象 ， 我 们 可 以 从 以 下 两 个 方面 的 原因 去 思考 : 其 一 ， 简 单 的 max 计算 
可 以 大 幅度 减少 计算 量 ， 进 而 提升 训练 速度 〈 论 文中 提 到 过 ) ; 其 二 ， 在 ReLU 中 ， 梯 度 是 被 直接 传 
递 的， 而 我 们 知道 在 深度 网 络 中 梯度 是 存在 衰减 的 ， 而 ReLU 却 能 够 最 大 限度 地 维持 梯度 ， 使 得 梯度 
衰减 的 趋势 得 以 减缓 。 此 外 , 由 于 反 向 传播 过 程 中 没有 了 梯度 换算 的 操作 , 因此 可 以 加 快 训练 的 进程 。 

(2) 局 部 响应 归 一 化 (Local Response Normalization, LRU) 

在 这 里 ， 我 们 为 了 不 让 某 一 些 核 (Kernel) 的 权重 值 (Weight) 变 得 很 大 ， 就 需要 对 不 同 的 核 
进行 归 一 化 CNormalization) 处 理 。 之 所 以 这 样 ， 是 因为 : 如 果 某 一 个 核 的 权重 值 变 得 很 大 ， 那 么 
它 的 权重 值 只 要 发 生 略 微 的 变化 就 会 对 网 络 性 能 产生 很 大 的 影响 , 这 一 点 可 以 结合 神经 学 中 的 侧 抑 
制 〈Lateral Inhibition) 概念 来 理解 ， 即 活跃 的 神经 元 会 对 与 它 相 邻 的 神经 元 产生 抑制 作用 。 


Oy) 
Œy) ( n) 
min| N-1,i +5 
ktg : 
( e jzmax(oi-7 ye (e) i 
其 中 ， 这 里 的 k、n、a、B 常 量 都 是 “可 调 参 数 ”， 由 最 好 的 验证 集 (Validation Set) 来 决定 。 


(3) Dropout 
是 一 种 正则 化 手段 ， 能 够 比较 有 效 地 防止 神经 网 络 的 过 拟 合 〈Overfitting) ， 通 过 随机 地 将 
部 分 神经 元 的 输出 置 零 来 实现 。 
相对 于 一 般 〈 如 线性 模型 ) 使 用 正则 的 方法 来 防止 模型 过 拟 合 ， 在 神经 网 络 中 Dropout 通过 修 
改 神经 网 络 本 身 的 结构 来 实现 。 在 全 连接 层 ， 将 某 些 隐藏 层 神经 元 的 输出 置 为 0， 对 于 每 个 神经 元 
输出 置 为 0 的 概率 是 0.5，Dropout 的 神经 元 不 会 对 前 向 传播 操作 造成 影响 ， 也 退出 了 反 向 传导 权 
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重 值 修正 。 这样 在 提高 训练 效率 同时 也 防止 了 过 拟 合 现象 的 发 生 。 论文 中 梯度 神经 网 络 在 前 面 的 两 
个 全 连接 层 进行 了 Dropout， 有 效 地 阻止 了 过 拟 合 现象 。 


(4) 数据 扩充 (Data Augmentation) 

在 深度 学 习 中 , 当 数 据 量 不 够 大 的 时 候 ,采取 的 方法 之 一 便 是 数据 扩充 (其 他 还 有 Regularization、 
Dropout 等 ) : 通过 平移 、 翻 转 、 加 噪声 等 方法 从 已 有 数据 中 创造 出 一 批 “ 新 ”的 数据 。 通 过 数据 
扩充 ， 我 们 可 以 防止 模型 出 现 过 拟 合 现象 ， 进 而 提升 模型 的 性 能 。 在 Hinton 和 Alex Krizhevsky 的 
论文 中 ， 是 从 256x256 中 随机 提出 227x227 的 patches. (论文 中 是 224x224) ， 还 有 就 是 通过 PCA 
来 扩充 数据 集 。 这 样 就 很 有 效 地 扩充 了 数据 集 ， 其 实 还 有 更 多 的 方法 ， 可 以 根据 我 们 的 业务 场景 去 
选择 使 用 ， 比 如 进行 基本 的 图 像 转换 (如 增加 /减少 亮度 、 采 用 一 些 滤 光 算法 等 ) ， 这 是 一 种 特别 
有 效 的 手段 ， 尤 其 是 当 数 据 量 不 够 大 的 时 候 。 


5.8.2 VGGNet 
1. VGGNet 简 述 


VGGNet 是 于 2014 年 由 牛津 大 学 计算 机 视觉 组 CVisual Geometry Group? 和 Google DeepMind 
公司 研究 员 一 起 研发 的 新 型 深度 卷 积 神经 网 络 。VGGNet 探索 了 卷 积 神经 网 络 的 深度 与 其 性 能 之 
间 的 关系 ， 通 过 反复 堆叠 3x3 的 小 型 卷 积 核 和 2x2 的 最 大 池 化 层 ，VGGNet 成 功 地 构筑 了 16-19 
层 深 的 卷 积 神经 网 络 。VGGNet 证 明了 增加 网 络 的 深度 能 够 在 一 定 程度 上 影响 网 络 最 终 的 性 能 ， 
相 比 之 前 的 网 络 结构 ， 使 错误 率 大 幅 下 降 ， 并 取得 了 ILSVRC2014 比赛 分 类 项 目的 第 二 名 《第 一 
名 是 GoogLeNet， 也 是 同年 提出 的 ) 和 定位 项 目的 第 一 名 。 同 时 VGGNet 的 拓展 性 很 强 ， 迁 移 到 
其 他 图 片 数 据 上 的 泛 化 性 也 非常 好 。VGGNet 的 结构 非常 简洁 ， 整 个 网 络 都 使 用 了 同样 大 小 的 卷 
积 核 尺 寸 (3x3) 和 最 大 池 化 尺寸 (2x2) 。 目 前 ，VGGNet 依然 经 常 被 用 来 提取 图 像 特征 。VGGNet 
训练 后 的 模型 参数 在 其 官方 网 站 已 经 开源 了 , 可 用 来 在 特定 领域 的 图 像 分 类 任务 上 进行 再 训练 ( 相 
当 于 提供 了 非常 好 的 初始 化 权重 值 )， 因 此 被 广泛 采用 。 


2. VGGNet 结构 详解 


在 VGGNet 论文 《Very Deep Convolutional Networks for Large-Scale Image Recognition) (基于 
深层 卷 积 网 络 的 大 规模 图 像 识别 ) 中 ， 作 者 全 部 使 用 3x3 的 卷 积 核 和 2x2 的 池 化 核 ， 借 助 不 断 加 
深 的 网 络 结构 来 提高 模型 性 能 。 图 5-25 给 出 了 VGGNet 中 各 级 别 的 网 络 结构 示意 图 。 论 文 作者 分 
别 使 用 A. A-LRN. B. C. D. E3X 6 种 网 络 结构 进行 测试 ， 这 6 种 网 络 结构 均 相 似 ， 都 是 由 5 
层 卷 积 层 、3 层 全 连接 层 组 成 ， 其 中 的 区 别 在 于 每 个 卷 积 层 的 子 层 数 量 不 同 ， 从 A 至 E 依次 增加 
( 子 层 数量 从 1 到 4) ， 总 的 网 络 深度 从 11 层 到 19 层 〈 添 加 的 层 以 粗 体 显示 ) ， 图 中 的 卷 积 层 参 
数 表示 为 “conv 感受 野 大 小 -通道 数 ”， 例 如 con3-128， 表 示 使 用 3x3 的 卷 积 核 ， 通 道 数 为 128。 
为 了 简洁 起 见 ， 在 表格 中 不 显示 ReLU 激活 功能 。 
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VGG16 VGG19 


conv 3-7: 2 
conv3-256 | conv3-256 
convl-256 | conv3-256 


conv3-512 
conv3-512 


图 5-25 VGGNet 各 级 别 的 网 络 参数 结构 示意 图 


图 5-26 给 出 了 每 一 级 别 的 参数 个 数 ， 从 第 11 层 的 网 络 一 直到 第 19 层 的 网 络 都 有 详尽 的 性 能 
测试 。 虽 然 从 A 到 了 每 一 级 网 络 都 逐渐 加 深 ， 但 是 网 络 的 参数 个 数 并 没有 增加 很 多 ， 这 是 因为 参 
数 个 数 大 部 分 都 消耗 在 最 后 3 个 全 连接 层 上 了 。 前 面 的 卷 积 部 分 虽然 很 深 , 但 是 消失 的 参数 个 数 并 
不 大 ， 而 训练 比较 耗 时 的 部 分 仍然 是 卷 积 部 分 (该 部 分 计算 量 较 大 ) 。 这 其 中 的 网 络 结构 D 和 网 
络 结构 了 就 是 我 们 常 说 的 VGG16 和 VGG19。 

| Network [AATRN| B IC [DIE| 
Number of parameters | 133 — | 133 | 134 | 138 | 144 | 
图 5-26 VGGNet 各 级 别 网 络 参数 个 数 〈 单 位 ， 百 万 ) 


接着 , 我 们 以 VGG16 (网 络 结构 D) 为 例 介绍 其 各 层 的 处 理 过 程 ， 见 图 5-27, A, A-LRN. B, 

C. E 等 其 他 网 络 结构 的 处 理 过 程 与 网 络 结构 D 类 似 。 其 处 理 过 程 如 下 请 对 比 图 5-25、 图 5-26 
和 图 5-27 的 数字 变化 ， 有 助 于 理解 VGG16 的 处 理 过程 》: 

COD 输入 224x224x3 的 图 片 ， 经 64 个 3x3 的 卷 积 核 做 两 次 卷 积 +ReLU， 卷 积 后 的 尺寸 变 为 
224x224x64。 

(2) 做 最 大 池 化 (Max Pooling) ， 池 化 单元 尺寸 为 2x2 (效果 为 图 像 尺 寸 减 半 ) ， 池 化 后 的 
尺寸 变 为 112x112x64。 

G) 经 128 个 3x3 的 卷 积 核 做 两 次 卷 积 +ReLU， 尺 寸 变 为 112x112x128。 

(4) 做 2x2 的 最 大 池 化 ， 尺 寸 变 为 56x56x128。 
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(5) 经 256 个 3x3 的 卷 积 核 做 三 次 卷 积 +tReLU， 尺 寸 变 为 56x56x256。 
(6) 做 2x2 的 最 大 池 化 ， 尺 寸 变 为 28x28x256。 

(7) 经 512 个 3x3 的 卷 积 核 做 三 次 卷 积 +ReLU， 尺 寸 变 为 28x28x512。 
(8) 做 2x2 的 最 大 池 化 ， 尺 寸 变 为 14x14x512。 

(9) 经 512 个 3x3 的 卷 积 核 做 三 次 卷 积 +ReLU， 尺 寸 变 为 14x14x512。 
(10) 做 2x2 的 最 大 池 化 ， 尺 寸 变 为 7x7x512。 

(OD 与 两 层 1x1x4096、 一 层 1x1x1000 进行 全 连接 +ReLU (HIB) 。 
(12) 通过 softmax 输出 1000 个 预测 结果 。 


~ 


输入 片 一 一 一 卷 积 层 一 一 一 全 连接 二 输出 
图 5-27 VGG16 (网 络 结构 D) 各 层 处 理 过 程 示意 图 

图 5-28 给 出 了 VGGNet 使 用 Multi-Scale 训练 时 得 到 的 结果 , 可 以 发 现 网 络 结构 D A E 均 能 够 
达到 7.5% 的 错误 率 。 在 对 比 VGGNet 各 级 别 网 络 后 得 出 以 下 3 个 观点 : 

(1) LRN 层 作 用 不 大 。 

(2) 越 深 层 的 网 络 效果 越 佳 。 

G) 2x2 的 卷 积 也 是 有 效 的 ， 但 没有 3x3 的 卷 积 好 ， 即 大 一 些 的 卷 积 核能 够 学 习 更 大 的 空间 
特征 。 


ConvNet config. (Iable[J smallest image side top-1 val. error (?6) | top-5 val. error (96) 
train (S) test (Q) 

B 256 | 224,256,288 28.2 9.6 
| 224,256,288 ELT 9.2 
C 352,384,416 27.8 92 
256,384,512 $ 
| 224,256,288 x 
D 352,384,416 T 
6,384,51 .8 E 
256 | 224,256,288 26.9 8.7 
E 384 | 352,384,416 26.7 8.6 
[256; 512] | 256,384,512 24.8 7.5 


图 5-28 VGGNet 各 级 别 在 使 用 Multi-Scale 训练 时 的 top-5 错误 率 
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5.8.3 Google Inception Net 


Google Inception Net( 有 时 也 称 GoogLeNet) 和 VGGNet 是 2014 年 ImageNet 挑 战 赛 (ILSVRC14) 
的 翘楚 ， 分 别 获 得 了 第 一 名 和 第 二 名 ， 这 两 类 模型 结构 的 共同 特点 是 神经 网 络 层 次 更 深 了 。 其 中 
VGGNet 继承 了 LeNet 以 及 AlexNet 的 一 些 框架 结构 , 而 GoogLeNet 则 做 了 更 加 大 胆 的 网 络 结构 党 
试 。2014 年 这 届 比 赛 中 的 Inception Net 一 般 被 称 为 mception V1， 其 中 一 个 很 重要 的 特点 是 控制 了 
计算 量 和 参数 量 的 同时 取得 了 非常 出 色 的 分 类 性 能 : top-5 错误 率 为 6.67%, 不 到 AlexNet 的 一 半 。 
Google Inception Net 其 实 是 一 个 大 的 家 族 ， 成 员 有 : 


(D 2014 年 9 月， 论文 《Going Deeper with Convolutions》 提 出 的 Inception V1 Ctop-5 错误 率 
为 6.67%) 。 

(2) 2015 年 2 H, 论文 《Batch Normalization: Accelerating Deep Network Training by Reducing 
Internal Covariate Shift?》 提 出 的 Inception V2 (top-5 错误 率 为 4.8%) 。 

(3) 2015 年 12 月， 论文 《Rethinking the Inception Architecture for Computer Vision》 提 出 的 
Inception V3 (top-5 错误 率 3.5%) o 

(422016 年 2 月 ,论文 《Inception-v4, Inception-ResNet and the Impact of Residual Connections on 
Learning) lif) Inception V4 (top-5 错误 率 3.08%) 。 


1. Inception V1 

Inception V1 虽然 深度 只 有 22 层 ， 但 大 小 却 比 AlexNet 和 VGGNet 小 很 多 ，GoogleNet 参数 为 
500 万 个 ， 仅 为 AlexNet 参数 个 数 的 1/12 倍 ， 是 VGGNet 参数 个 数 的 14， 所 以 在 内 存 或 计算 资源 
有 限 的 时 候 , GoogleNet 是 比较 好 的 选择 ; 从 模型 的 效果 来 看 ,GoogleNet 的 性 能 也 是 更 佳 的 选择 。 
Inception V1 模型 的 参数 量 少 但 效果 好 的 原因 除了 模型 层 数 更 深 、 表达 能力 更 强 外 ， 还 有 如 下 两 方 
面 的 原因 : 


(1) 放弃 了 最 后 的 全 连接 层 ， 代 之 以 全 局 平均 池 化 层 〈 将 图 片 尺寸 变 为 1x1) 。 由 于 全 连接 
层 几 乎 占据 了 AlexNet 或 VGGNet 中 90% 的 参数 量 ， 且 这 会 引发 过 拟 合 现象 。 采 用 全 局 平均 池 化 
层 代替 全 连接 层 的 做 法 借鉴 了 Network In Network (NIN) 论文 的 思想 ， 这 样 模型 训练 起 来 速度 更 
快 且 也 减轻 了 过 拟 合 的 压力 。 

(2) Inception V1 中 精心 设计 的 Inception 模块 (Inception Module) 提升 了 参数 的 利用 效率 ， 
具体 的 网 络 结构 见 图 5-29。 这 一 部 分 借鉴 了 NIN 的 思想 , 可 以 理解 为 Inception 模块 本 身 就 如 同 大 
网 络 中 的 一 个 小 网 络 ， 其 结构 可 以 反复 有 加 在 一 起 形成 大 网 络 。 但 Inception V1 比 NIN 更 具有 优 
势 的 地 方 是 它 增 加 了 分 支 网 络 ，NIN 则 主要 是 级 联 的 卷 积 层 和 MLPConv 层 。 
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5-29 Inception V1 网 络 结构 示意 图 (图 片 来 自 论文 《Going Deeper with Convolutions) ) 
接 下 来 ， 我 们 给 出 Inception V1 模型 的 特点 ， 具 体 如 下 : 


CD 卷 积 层 共有 的 一 个 功能 ， 可 以 实现 通道 方向 的 降 维 和 增 维 ， 至 于 是 降 还 是 增 ， 取 决 于 卷 
积 层 的 通道 数 (过 滤器 个 数 ) ， 在 Inception V1 中 1x1 卷 积 用 于 降 维 ， 减 少 权 重 值 大 小 和 特征 图 维 
度 。 

COD 1x1 卷 积 特 有 的 功能 ， 由 于 1x1 卷 积 只 有 一 个 参数 ， 相 当 于 对 原始 特征 图 做 了 一 个 尺度 
变换 〈scale) 操作 ， 并 且 这 个 尺度 变换 还 是 训练 学 出 来 的 ， 无 疑 会 对 识别 精度 有 提升 。 

(3) 增加 了 网 络 的 深度 。 

(4) 增加 了 网 络 的 宽度 。 

G) 同时 使 用 了 1x1、3x3、5x5 的 卷 积 ， 增 加 了 网 络 对 尺度 的 适应 性 。 


2. Inception V2 

Inception V2 学 习 了 VGGNet， 使 用 两 个 3x3 的 卷 积 取 代 了 5x5 的 大 卷 积 〈 用 于 降低 参数 量 且 
减少 过 拟 合 ) ， 并 提出 了 著名 的 Batch Normalization (BN) 方法 ， 其 网 络 结构 如 图 5-30 所 示 。BN 
是 一 个 非常 有 效 的 正则 化 方法 , 可 以 让 大 型 卷 积 网 络 的 训练 速度 加 快 很 多 倍 , 同时 收敛 后 的 分 类 准 
确 率 也 可 以 得 到 很 大 的 提升 。Inception V2 的 优势 在 于 以 下 两 点 : 


Inception V1 Inception V2 


图 5-30 Inception V1 改进 到 V2 的 网 络 结构 示意 图 
CD WAT BNE, 减少 了 内 部 协 方差 偏 移 (InternalCovariate Shift， 内 部 神经 元 的 数据 分 布 
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发 生变 化 ) ， 使 每 一 层 的 输出 都 规范 化 到 一 个 N(0, 1) 的 高 斯 分 布 ( 即 正 态 分 布 )， 从 而 增加 了 模 
型 的 鲁 棒 性 ， 能 以 更 大 的 学 习 速 率 训练 ， 收 敛 更 快 ， 初始化 操作 更 加 随意 ， 同 时 作为 一 种 正则 化 技 
术 ， 可 以 减少 dropout 层 的 使 用 。 
(2) 用 2 个 连续 的 3x3 conv EH Inception 模块 中 的 5x5， 从 而 实现 网 络 深度 的 增加 ， 网 络 整 
体 深度 增加 了 9 层 ， 缺 点 就 是 增加 了 25% 的 权重 值 和 30% 的 计算 量 。 
3. Inception V3 


Inception V3 网 络 主要 是 在 V2 的 基础 上 提出 了 卷 积分 解 Factorization〉， 如 图 5-31 所 示 。 其 
主要 特点 有 以 下 两 点 : 


CD 将 7x7 分 解 成 两 个 一 维 的 卷 积 (1x7,7x1) ，3x3 也 是 一 样 〈1x3,3x1) ， 这 样 的 好 处 是 
既 可 以 加 速 计算 〈 多 余 的 计算 能 力 可 以 用 来 增加 网 络 深度 ) ， 又 可 以 将 1 个 卷 积分 解 成 2 个 卷 积 ， 
使 得 网 络 深度 进一步 增加 , 从 而 增加 了 网 络 的 非 线性 ,更 加 精细 地 设计 了 35x35/17x17/8x8 的 模块 。 
(2) 增加 网 络 宽度 ， 网 络 输入 从 224x224 变 为 了 299x299。 


n 


图 5-31 将 一 个 3x3 卷 积分 解 成 1x3 卷 积 和 3x1 卷 积 
4. Inception V4 


Inception V4 相 比 于 V3 主要 是 结合 了 微软 的 ResNet， 得 到 了 Inception-ResNet-v1 、 
Inception-ResNet-v2, Inception-v4 网 络 。 关 于 ResNet 我 们 将 在 5.8.4 节 单独 说 明 。 
ResNet 的 残 差 结构 如 图 5-32 所 示 。 


Relu activation 


5-32 ResNet 的 残 差 结构 示意 图 
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Inception 与 ResNet 结合 后 的 网 络 结构 如 图 5-33 所 示 。 


Relu activation 
1x1Conv | 
(256 Linear) | 
3x3 Conv 
(32) 
1x1 Conv 
2) 3x3 Conv | | 3x3 Conv 
(32) (82) 
1x1 Conv | 1x1 Conv 
G2 | (82) 
E EAT 
| — pret 
Relu activation. 


图 5-33 Inception 与 ResNet 结合 后 的 网 络 结构 示意 图 
现在 ， 我 们 可 以 看 一 下 Inception V4 的 优点 ， 具 体 如 下 : 


(1) 将 Inception 模块 和 ResNet 结合 ， 提 出 了 Inception-ResNet-v1、Inception-ResNet-v2， 使 
得 训练 加 速 ， 收 敛 更 快 ， 精 度 更 高 。 

(2) 设计 了 更 深 的 Inception-v4 版 本 ， 效 果 和 Inception-ResNet-v2 相当 。 

G) 网 络 输入 大 小 和 V3 一 样 ， 还 是 299x299, 


5.84 ResNet 网 络 


1. 简 述 

ResNet( Residual Neural Network, 残 差 神经 网 络 ) 是 由 微软 研究 院 的 Kaiming He、Xiangyu Zhang, 
Shaoqing Ren 和 Jian Sun 四 名 华人 于 2015 年 在 其 论文 {Deep Residual Learning for Image Recognition) 
中 提出 的 ,通过 使 用 ResNet Unit 成 功 训练 出 了 152 层 深 的 神经 网 络 ， 并 在 ILSVRC 2015 比赛 中 取 
得 了 冠军 ， 在 tops 上 的 错误 率 为 3.57%， 同 时 参数 个 数 比 VGGNet 低 ， 效 果 却 非常 突出 。ResNet 
的 结构 可 以 极 快 地 加 速 超 深 神 经 网 络 的 训练 , 模型 准确 率 的 提升 也 非常 显著 。 正 是 因为 ResNet“ 简 
单 与 实用 ”并 存 的 魅力 ， 所 以 后 来 很 多 方法 都 是 建立 在 ResNet50 或 者 ResNet101 基础 上 完成 的 ， 
检测 、 分 割 、 识 别 等 领域 都 纷纷 使 用 了 ResNet 网 络 ，Alpha Zero 也 使 用 了 ResNet， 可 见 ResNet 
确实 很 受 欢迎 。 

2. ResNet 网 络 结构 


ResNet 主要 借鉴 了 高 速 路 网 络 (Highway Network) 的 思想 ， 即 允许 原始 输入 信息 直接 传输 到 
后 面 的 网 络 层 中 (我 们 可 以 理解 为 ， 网 络 中 增加 了 捷径 连接 或 者 直 连 通道 或 者 说 跨 层 连 接 等 ), 但 
实际 上 ResNet 对 高 速 路 神经 网 络 进行 了 改进 ( 残 差 项 中 原本 是 带 有 权重 值 的 , 而 ResNet 则 采用 恒 


150 | TensorFlow 与 自然 语言 处 理应 用 


等 映射 代替 之 ) 。 图 5-34 给 出 了 ResNet 网 络 两 层 残 差 学 习 单 元 的 示意 图 。 
x 


F(x) identity 
x 

H(x) = F(x)+x | shortcut connections 
reu (捷径 连 楼 ) 


图 5-34 ResNet 网 络 两 层 残 差 学 习 单元 


我 们 知道 , 在 传统 的 卷 积 网 络 或 者 全 连接 网 络 当 中 , 信息 传递 时 或 多 或 少 会 存在 信息 丢失 、 损 
耗 等 现实 问题 ， 甚至 引起 梯度 消失 或 者 梯度 爆炸 的 严重 问题 , 导致 我 们 无 法 对 深度 神经 网 络 进行 正 
常 训练 。 现 在 我 们 认识 到 ，ResNet 可 以 通过 其 捷径 连接 将 输入 信息 直接 传 到 输出 端 ， 最 大 程度 上 
保证 了 信息 的 完整 性 , 整个 神经 网 络 只 需要 学 习 输 入 端 和 输出 端 存在 差异 的 部 分 即 可 ,从 而 大 大 降 
低 了 模型 的 学 习 难 度 。 

论文 《Deep Residual Learning for Image Recognition) "Hitt T ResNet 模块 的 两 种 结构 (如 图 
5-35 所 示 ) ， 其 实 真正 在 使 用 的 ResNet 模块 并 不 是 这 么 单一 。 这 两 种 结构 分 别针 对 ResNet34( 左 
图 浅 层 网 络 ) 和 ResNet50/101/152 〈 右 图 深层 网 络 ) ， 整 个 结构 被 称 为 一 个 “building block”。 其 
中 右 图 又 被 称 为 “bottleneck design”， 目 的 就 是 为 了 降低 参数 的 数目 。 我 们 面 对 的 网 络 层 数 很 多 
时 ， 在 神经 网 络 中 靠近 输出 端的 维 数 就 会 很 大 ， 此 时 如 果 选 择 左 侧 浅 层 网 络 则 会 导致 计算 量 极 大 ， 
而 选择 右 侧 深层 网 络 结构 进行 计算 就 会 好 很 多 , 这 里 将 会 先 用 一 个 1x1 卷 积 进行 降 维 , 然后 使 用 一 
个 3x3 卷 积 层 ， 最 后 再 使 用 一 个 1x1 卷 积 层 恢复 到 之 前 的 维度 。 


图 5-35 二 层 和 三 层 的 ResNet 学 习 模 块 


5.9 ”利用 CNN 对 MNIST 数据 集 进行 图 片 分 类 


本 节 我 们 分 析 一 个 在 讲解 卷 积 神经 网 络 时 经 常 使 用 到 的 案例 ， 即 利用 CNN 对 MNIST 数据 集 
进行 图 片 分 类 。 
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5.9.1 数据 样本 


数据 样本 还 是 计算 机 视觉 社区 中 众所周知 的 数据 集 : MNIST 数据 集 。 MNIST 数据 集 是 从 0 
到 9 的 手写 数字 的 标记 图 像 的 数据 库 。 数 据 集 包 含 三 个 不 同 的 子 数据 集 : 训练 、 验 证 和 测试 集 。 下 
面 我 们 将 在 训练 集 上 做 训练 ， 再 从 测试 集中 随机 选取 一 些 正确 和 错误 分 类 的 样本 ， 以 评估 CNN 的 


学 习 能 力 。 


5.9.2 ”实现 CNN 


本 部 分 的 完整 代码 位 于 chs 文件 夹 的 5 enn. image classification mnist.ipynb 中 。 
首先 ， 我 们 将 定义 TensorFlow 占 位 符 ， 用 于 为 输入 (图 像 》 和 输出 标签， 服务， 然后 定义 
一 个 全 局 步 数 ， 它 被 用 于 计算 衰减 的 学 习 速 率 : 


# 输入 图像 》 和 输出 (标签 ) 占 位 符 

tf inputs = tf.placeholder(shape-[batch size, image size, image size, 

n channels],dtype-tf.float32,name-'tf mnist images') 

tf labels - tf.placeholder(shape-[batch size, n classes], 
dtype-tf.float32,name-'tf mnist labels') 


+ 用 于 计算 衰减 学 习 速率 的 全 局 步 数 
global step = tf.Variable(0,trainable-False) 


接 下 来 ， 我 们 将 定义 模型 和 其 他 变量 ， 它 们 是 卷 积 权重 值 和 偏差 以 及 完全 连接 的 权重 值 。 
# 初始 化 各 个 变量 


layer weights = {} 
layer biases = {} 
for layer id in cnn layer ids: 
if 'pool' not in layer id: 
layer weights[layer id] -tf.Variable(initial value- 
tf.random normal(shape-layer hyperparameters[layer id]['weight shape'],stddev- 
0.02,dtype-tf.float32),name-layer id*' weights') 


layer biases[layer id] = tf.Variable(initial value-tf.random normal 
(shape-[layer hyperparameters[layer id]['weight shape'][-1]], 
stddev-0.01,dtype-tf.float32), name-layer id*' bias') 


下 一 步 定 义 logit 计算 。Logits 是 应 用 softmax 激活 之 前 输出 层 的 值 。 为 此 ， 我 们 将 会 遍历 每 一 


bui 


对 于 每 个 卷 积 层 ， 将 使 用 以 下 方法 对 输入 进行 卷 积 运算 : 


h = tf.nn.conv2d(h,layer weights[layer id],layer hyperparameters[layer id] 


'stride'],layer hyperparameters[layer id]['padding']) * layer biases[layer id] 
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这 里 ， 对 于 第 一 个 卷 积 ， 输 入 h 到 从 nn.conv2d TE 8873 t£. inputs。 此 外 ，ttnn.conv2d(input, 
filter, strides, padding) 按 以 下 顺序 采用 有 关 参 数值 。 
我 们 还 将 调用 非 线性 激活 函数 ReLU: 


h = tf.nn.relu(h) 


然后 ， 对 于 每 个 池 化 层 ， 使 用 以 下 方法 对 输入 进行 子 采 样 ; 


h = tf.nn.max pool(h, layer hyperparameters[layer id]['kernel shape'], 


layer hyperparameters[layer id]['stride'],layer hyperparameters[layer id] 


['padding']) 


tfnn.max pool (input, ksize, strides, padding) 函数 按 顺 序 采用 以 下 参数 : 


€ input: 用 于 子 采样 ， 形 式 为 [batch size, input height, input width, input depth]. 

€ ksize: 最 大 池 化 运算 的 每 个 维度 上 的 内 核 大 小 ,形式 为 [batch kernel size, height kernel size, 
width kernel size, depth kernel size]. 

€ strides: 输入 每 个 维度 的 步 幅 ， 形 式 为 [batch stride, height stride, width stride, depth stride]. 

e padding: 可 以 是 SAME' 或 VALID'。 

接 下 来 ， 对 于 第 一 个 完全 连接 的 层 ， 我 们 重 塑 输出 : 

h = tf.reshape (h, [batch size,-1]) 

然后 我 们 将 执行 权重 值 乘法 和 偏差 加 法 ， 进 行 非 线性 激活 : 


h tf.matmul(h,layer weights[layer id]) + layer biases[layer id] 
h - tf.nn.relu(h) 


这 时 计算 logits: 
h = tf.matmul(h,layer weights[layer id]) + layer biases[layer id] 


我 们 将 h 的 最 后 一 个 值 〈 最 后 一 层 的 输出 ) 分 配给 tf. logits: 


tf logits = h 


接 下 来 ， 我 们 将 定义 softmax 2: 30i, 3308 8 REDRE BUTS FH ER: 


tf loss = tf.nn.softmax cross entropy with logits v2(logits-tf logits, 
labels-tf labels) 


我 们 还 需要 定义 一 个 学 习 率 ， 每 当 验 证 准确 度 没 有 增加 预定 数量 的 epoch (一 个 epoch 是 指 遍 
历 一 遍 整个 数据 集 ， 即 训练 一 遍 ) 时 ， 我 们 将 学 习 率 降低 0.5 倍 。 这 被 称 为 学 习 率 衰减 : 


tf learning rate -tf.train.exponential decay(learning rate-0.001, 


global step-global step,decay rate-0.5,decay steps-1l,staircase-True) 


接着 ， 我 们 将 使 用 RMSPropOptimizer 优化 器 定义 损失 最 小 化 ， 有 人 发 现 它 优 于 传统 的 随机 梯 
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度 下 降 (SGD) ， 尤 其 是 在 计算 机 视觉 应 用 中 : 


tf loss minimize = tf.train.RMSPropOptimizer(learning rate-tf learning rate, 


momentum-0.9).minimize(tf loss) 


最 后 , 通过 比较 预测 的 分 类 标签 和 实际 分 类 标签 来 计算 预测 的 准确 率 , 我 们 将 定义 以 下 预测 计 
算 函 数 : 


tf predictions = tf.nn.softmax(tf logits) 


目前 , 我 们 已 经 完成 了 第 一 个 CNN 功能 的 创建 工作 。 熟悉 了 使 用 相关 函数 来 实现 CNN 结构 、 
定义 损失 、 最 大 限度 地 减少 损失 并 将 预测 变 为 未 可 见 数据 。 我 们 使 用 简单 的 CNN 来 查看 它 是 否 可 
sis cob doni oc db ih 此 外 ， 通 过 CNN， 我 们 能 够 达到 98% 以 上 的 准确 度 。 接 下 来 
我 们 将 分 析 CNN 产生 的 一 些 结果 ， 将 看 到 为 什么 CNN 无 法 正确 识别 某 些 图 像 。 


5.9.3 分 析 CNN 产生 的 预测 结果 


在 这 里 ， 我 们 可 以 从 测试 集中 随机 选取 一 些 正确 和 错误 分 类 的 样本 ， 以 评估 CNN 的 学 习 能 力 
( 见 图 5-360 。 我 们 可 以 看 到 ， 对 于 正确 分 类 的 实例 ，CNN 对 输出 非常 有 信心 ， 这 可 以 被 视 为 学 
习 算 法 的 良好 属性 。 然 而 ， 当 我 们 评估 错误 分 类 的 例子 时 ， 我 们 可 以 看 到 它们 实际 上 是 困难 的 ， 甚 
至 人 类 也 可 能 会 弄 错 它们 〈 例 如 ， 第 二 行 从 左 侧 起 第 3 个 图 像 》， 这 么 来 看 ， 面 对 不 正确 的 样本 ， 
CNN nt 此 外 ， 尽 管 出 现 这 些 不 足 ， 但 正确 的 标签 通常 不 会 被 完 
全 忽略 ， 并 且 根 据 预 测 值 给 出 一 些 识别 ， 例 如 ， 图 中 第 一 行 的 图 像 ， 正 确 的 标签 基本 不 会 被 弄 错 。 


机 分 类 的 样本 


EDELIImBE 


| | TR AUG sott 
(a) MNIST 正确 分 类 实例 


perigee 


错误 分 类 样本 的 Soft 


(b) MNIST 错误 分 类 实例 
图 5-36 MNIST 正确 分 类 (a) 和 错误 分 类 (b) 的 实例 
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5.10 利用 CNN 进行 句子 分 类 


虽然 CNN 主要 用 于 计算 机 视觉 任务 , 但 在 NLP 领域 也 经 常 被 使 用 到 , 它 对 处 理 句 子 分 类 任务 
是 很 有 效 的 。 

在 句子 分 类 任务 中 ， 把 给 定 句子 归 类 为 一 类 。 我 们 将 使 用 一 个 问题 数据 库 ， 其 中 每 个 问题 都 用 
问题 的 内 容 来 做 标记 (标签 》。 例 如 ，“ 谁 是 秦始皇 ? ”将 是 一 个 问题 ， 它 的 标签 将 是 “人 ”。 关 
于 问题 句子 分 类 的 数据 集 ， 国 外 有 些 现成 的 数据 集 。 例 如 ，http://cogcomp.org/Data/QA/QC/ 上 提供 
的 句子 分 类 数据 集 ， 我 们 可 以 找到 1000 个 训练 句子 及 其 各 自 的 标签 和 500 个 测试 句子 。 

这 里 ， 我 们 将 参考 大 家 所 熟知 的 Yoon Kim 于 2014 年 发 表 的 论文 《Convolutional Neural 
Networks for Sentence Classification》， 来 解读 CNN 在 NLP 任务 中 的 工作 价值 。 然 而 ， 使 用 CNN 
进行 句子 分 类 与 我 们 讨论 过 的 MNIST 示例 有 些 不 同 ， 因 为 现在 有 些 操作 《〈 例 如， 卷 积 和 池 化 ) 是 
发 生 在 一 维 而 不 是 二 维 层 面 上 。 此 外 ,这 里 的 池 化 运算 也 将 与 正常 的 池 化 运算 有 一 定 的 差异 , 在 后 
面 就 会 看 到 。 相 关 完 整 代 码 ， 可 查看 ch5 文件 夹 下 的 5 enn sentence classification.ipynb 文件 。 


5.10.1 CNN 结构 部 分 


现在 我 们 讨论 一 下 用 于 句子 分 类 的 CNN 的 技术 细节 。 首 先 ， 我 们 将 讨论 如 何 把 数据 或 句子 转 
换 为 CNN 可 以 轻松 处 理 的 首选 格式 。 接 下 来 ， 我 们 讨论 卷 积 和 池 化 运算 如 何 适 用 于 句子 分 类 ， 最 
后 ， 我 们 再 讨论 所 有 这 些 组 件 是 如 何 连接 的 。 

1. 数据 转换 

假设 一 个 由 p 词 所 组 成 的 句子 。 首 先 , 我 们 用 一 些 特殊 的 词 填 充 句 子 (如 果 句 子 的 长 度 是 小 于 
n 的 ) ,将 句子 长 度 设置 为 n 个 词 ， 其 中 三 p。 接 下 来 , 我 们 将 通过 大 小 为 的 向 量 来 表示 句子 中 
的 每 个 词 ， 其 中 该 向 量 可 以 用 One-Hot 编码 表示 ， 也 可 以 使 用 Skip-Gram、CBOW 或 GloVe 等 模 
型 来 表示 。 然 后 ， 一 组 大 小 为 5 的 句子 可 以 用 bxnxk 和 矩阵 表示 。 

下 面 来 看 一 个 例子 : 


€ Bob and Mary are friends. 


€* Bob plays soccer. 

© Mary likes to sing in the choir. 

在 这 个 例子 中 , 第 三 个 句子 的 单词 最 多 , 所 以 让 我 们 设置 > = 7, 这 是 第 三 个 句子 中 的 单词 数 。 
接 下 来 ， 让 我 们 看 一 下 每 个 单词 的 One-Hot 编码 表示 情况 。 由 于 整体 情况 下 这 里 有 13 个 不 同 的 单 
词 ， 因 此 我 们 得 到 如 下 表示 : 

Bob: 1,0,0,0,0,0,0,0,0,0,0,0,0 


and: 0,1,0,0,0,0,0,0,0,0,0,0,0 
Mary: 0,0,1,0,0,0,0,0,0,0,0,0,0 
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而 且 ， 出 于 同样 的 原因 ,k= 13。 通 过 这 种 表示 ， 我 们 可 以 将 三 个 句子 表示 为 大 小 为 3X7X13 
的 三 维 矩 阵 ， 如 图 5-37 所 示 。 


may [ololi[ololo[o[olololololr 
ws [ojo[o[ojojo[o[t]ojo]o]oTo 
n ojo[o[ojojo]o]o]|1]o[ofo]o 
Bæ "1 [o[o[o[o[o[o[o[o[o[o[o[oe)|o]o 
pays [o[o ofo o[1|ojo[o[o[o 时 0 o|o 
socar |olololololol1lololo ofoloblolo 
s» |1|olololololololololololobloloblolo 
ad |ol1|ololololololololololoblolo 7 
way |olol1|lolololololololololoblolo 
are ololol1lololololololololoblolol, 
meds |0|ololol1lolololololololo Fá 
mo |ololololololololololololol , 
mo [ololololololololololololol,” 


5-37 ”句子 矩阵 示意 图 

2. 卷 积 运算 部 分 

如 果 我 们 忽略 批量 大 小 ， 也 就 是 说 ， 如 果 假 设 一 次 只 处 理 一 个 句子 ,那么 我 们 的 数据 将 是 一 个 
nxk JEBE, HP n 是 填充 后 每 个 句子 的 单词 数 、k 是 一 个 词 向 量 的 维度 。 在 上 面 的 例子 中 ， 这 个 数 
据 是 7x13 矩阵 。 

现在 我 们 把 卷 积 权重 值 矩 阵 定义 为 mxk 的 大 小 ， 其 中 m 是 一 维 卷 积 运算 的 过 滤器 的 大 小 。 通 
过 把 大 小 为 nxk 的 输入 x 与 大 小 为 mxk 的 权重 值 矩 阵 画 做 卷 积 运 算 ， 我 们 将 产生 大 小 为 1xn B h 
输出 ， 如 下 所 示 : 


m k 


haa) = > ». WOD Xisj-1) 


jaa 
XE, wapi W KEG 7 个 元 素 ， 我 们 将 用 零 填充 x E h 的 大 小 为 1xn。 此 外 ， 我 们 将 
给 出 此 运算 更 简单 的 定义 ， 如 下 所 示 : 
h=W*x+b 


这 里 ，* 定 义 了 卷 积 运算 〈 带 填充 ) ， 我 们 将 添加 一 个 额外 的 标量 偏差 5。 图 5-38 给 出 了 这 个 
运算 的 说 明 。 

然后 , 为 了 学 习 丰 富 的 特征 集合 , 我 们 提供 了 有 具有 不 同 卷 积 过 滤器 大 小 的 并 行 层 。 每 个 卷 积 层 
输出 一 个 大 小 为 1xn 的 隐藏 向 量 ， 我 们 将 连接 这 些 输出 以 形成 下 一 个 大 小 为 qxn 的 层 的 输入 ， 其 
P qg 是 我 们 使 用 的 并 行 层 数 。g 越 大 ， 模 型 的 性 能 越 好 。 

卷 积 的 值 可 以 用 以 下 方式 理解 。 想 一 下 电影 评级 学 习 问题 (有 两 个 分 类 , 正面 的 还 是 负面 的 )， 
我 们 有 以 下 句子 : 


€ like the movie, not too bad 
€ Idid not like the movie, bad 
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| 


(nxk) i Convolution | 
i Outputofa : 
Single Layer : 


A Singe Convolution Layer 
图 5-38 ”句子 分 类 的 卷 积 运算 示意 图 
现在 想象 一 个 大 小 为 5 的 卷 积 窗口 。 让 我 们 根据 卷 积 窗口 的 移动 来 装 箱 单词 (把 这 些 词 存储 起 


来 ) 。 
句子 “Ilike the movie, not too bad” 的 情况 如 下 所 示 : 
I, like, the, movie, ','] 
like, the, movie, ',', not] 
the, movie, ',', not, too] 
movie, ',', not, too, bad] 


句子 “Idid not like the movie, bad” 的 情况 如 下 所 示 : 


I, did, not, like, the] 

did, not ,like, the, movie] 
not, like, the, movie, ','] 
like, the, movie, ',', bad] 


对 于 第 一 句 话 ， 如 下 所 示 的 窗口 表示 的 评级 为 正面 的 : 


I, like, the, movie, ','] 


movie, ',', not, too, bad] 


然而 ， 对 于 第 二 句 话 ， 以 下 窗口 给 出 的 评级 是 负面 的 : 
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[did, not, like, the, movie] 


由 于 保留 了 空间 性 ,因此 我 们 能 够 看 到 这 样 的 模式 有 助 于 对 评级 进行 分 类 。 例如， 如 果 使 用 诸 
如 词 袋 (bag-ofwords) 之 类 的 技术 来 计算 丢失 空间 信息 的 句子 表示 ， 那 么 得 到 的 句子 表示 将 是 非 
常 相似 的 。 卷 积 运算 在 保留 句子 的 空间 信息 方面 起 着 非常 重要 的 作用 。 

通过 具有 不 同 过 滤器 大 小 的 g 个 不 同 层 , 神经 网 络 学 习 提取 了 具有 不 同 大 小 短语 的 评级 ,从 而 
改善 了 模型 的 性 能 。 


5.10.2” 池 化 运算 


池 化 运算 被 设计 为 对 先前 讨论 的 并 行 卷 积 层 产生 的 输出 进行 二 次 采样 , 它 是 通过 以 下 方式 来 实 
现 的 。 

假设 最 后 一 层 刀 的 输出 大 小 为 gxm。 随 着 时 间 的 推移 , 该 池 化 运算 将 产生 大 小 为 gxl 的 输出 尹 ， 
具体 计算 如 下 : 

ha = max(h®) 

其 中 ,，1<i<g。 

XE, hO = W 四 +x 二 b 是 由 第 1 个 卷 积 层 产生 的 输出 ，W 外 是 属于 该 层 的 权重 值 集合 。 简 而 
言 之 ， 随 时 间 的 变化 ， 池 化 运算 通过 连接 每 个 卷 积 层 的 最 大 元 素来 创建 向 量 。 我 们 将 在 图 5-39 中 
说 明 此 运算 。 


i q "es Output of the 
i | Pooling Over Time 
i . Layer 


mE E 


Convolution 
Output of a 
Single Layer 


Pooling Over Time 


图 5-39 用 于 句子 分 类 的 池 化 运算 随 着 时 间 变化 的 示意 图 
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注意 : 在 图 5-39 中 ， 我 们 用 较 暗 的 颜色 来 表示 并 行 卷 积 层 的 最 大 值 。 
最 终 我 们 通过 组 合 这 些 运算 得 到 了 图 5-40 所 示 的 架构 。 


Convolution 


Layers “一 


(xk) Convolution 
Output ot a 
Sing'e Layer 


图 5-40 用 于 句子 分 类 的 CNN 架构 示意 图 


5.10.3 利用 CNN 实现 句子 分 类 


首先 ， 我 们 将 定义 输入 和 输出 。 输 入 批量 句子 ， 其 中 的 词 由 One-Hot 编码 的 词 向 量 表示 。 我 们 
知道 词 向 量 会 提供 比 One-Hot 编码 表示 更 好 的 性 能 ， 但 是 ， 为 简单 起 见 ， 我 们 这 里 使 用 One-Hot 
编码 表示 : 

sent inputs = 
tf.placeholder(shape-[batch size,sent length,vocabulary size],dtype- 

tf.float32,name-'sentence inputs') 


sent labels - tf.placeholder(shape-[batch size,num classes], 
dtype-tf.float32,name-'sentence labels') 


这 里 , 我们 定义 了 三 个 不 同 的 一 维 卷 积 层 ， 其 中 三 个 不 同 的 过 滤器 的 大 小 分 别 为 3、 5 和 7 (在 
filter sizes 中 作为 列表 提供 ) ， 以 及 它们 各 自 的 偏差 : 


wl = tf.Variable(tf.truncated normal([filter sizes[0],vocabulary size,l1 


stddev-0.02,dtype-tf.float32),name-'weights 1') 
bl = tf.Variable(tf.random uniform([1],0,0.01,dtype-tf.float32), 
name-'bias 1') 


w2 = tf.Variable(tf.truncated normal([filter sizes[1],vocabulary size,l], 
stddev-0.02,dtype-tf.float32),name-'weights 2') 
b2 = tf.Variable(tf.random uniform([1],0,0.01,dtype-tf.float32), 
name-'bias 2') 


w3 — tf.Variable(tf.truncated normal([filter sizes[2],vocabulary size,l], 
stddev-0.02,dtype- tf.float32),name-'weights 3') 
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b3 = tf.Variable(tf.random uniform([1],0,0.01,dtype-tf.float32), 


name-'bias 3') 


现在 我 们 计算 出 这 三 个 输出 , 每 个 输出 属于 一 个 卷 积 层 ， 正 如 我 们 刚刚 定义 的 那样 。 我 们 可 以 
使 用 TensorFlow 中 提供 的 tf.nn.convld 函数 来 轻松 完成 计算 。 我 们 使 用 步 幅 1 (stride=1〉 和 和 零 填充 
来 确保 输出 与 输入 具有 相同 的 大 小 : 


hl 1 = tf.nn.relu(tf.nn.convld(sent inputs,wl,stride-1,padding-'SAME') + bl) 
hl 2 = tf.nn.relu(tf.nn.convld(sent inputs,w2,stride-1,padding-'SAME') + b2) 
hl 3 = tf.nn.relu(tf.nn.convld(sent inputs,w3,stride-1l,padding-'SAME') + b3) 


为 了 计算 随时 间 变 化 过 程 中 的 最 大 池 化 ， 我 们 需要 编写 基本 函数 来 在 TensorFlow 中 执行 相关 
运算 ， 因 为 TensorFlow 中 没有 执行 此 运算 的 本 地 函数 。 而 实际 上 ， 编 写 这 些 函 数 不 麻烦 。 
首先 ， 我 们 计算 每 个 卷 积 层 中 产生 的 最 大 值 。 这 会 为 每 个 图 层 生成 一 个 标量 : 


h2 1 
h2 2 = tf.reduce max(hl 2,axis-1l) 


tf.reduce max(hl l,axis-1) 


h2 3 - tf.reduce max(hl 3,axis-1) 

然后 ， 我 们 连接 轴 1 宽度 ) 上 产生 的 输出 ， 以 产生 大 小 为 batchsizexq 的 输出 : 

h2 = tf.concat([h2 1,h2 2,h2 3],axis=1) 

接 下 来 ， 我 们 定义 完全 连接 的 层 ， 这 些 层 将 完全 连接 到 由 池 化 层 随时 间 而 产生 的 输出 
batchsizexq。 在 这 种 情况 下 ， 只 有 一 个 完全 连接 的 层 ， 这 也 将 是 我 们 的 输出 层 : 


w fcl = tf.Variable(tf.truncated normal([len(filter sizes),num classes], 
stddev-0.5,dtype-tf.float32),name-'weights fulcon 1') 
b fcl = tf.Variable(tf.random uniform([num classes],0,0.01,dtype- 
tf.float32),name-'bias fulcon 1') 


此 处 定义 的 函数 将 生成 随后 用 于 计算 神经 网 络 损失 的 logits: 


logits = tf.matmul(h2,w fcl) + b fcl 


通过 将 softmax 激活 应 用 于 logits， 我 们 将 获得 相关 的 预测 : 


predictions = tf.argmax (tf.nn.softmax (logits),axis=1) 
此 外 ， 我 们 将 定义 损失 函数 ， 即 交叉 炉 损 失 : 


loss = tf.reduce mean(tf.nn.softmax cross entropy with logits v2 


(labels-sent labels,logits-logits)) 


为 了 优化 网 络 ， 我 们 使 用 名 为 MomentumOptimizer 的 TensorFlow 内 置 优 化 器 : 


optimizer = tf.train.MomentumOptimizer(learning 


rate-0.01,momentum-0.9).minimize (loss) 
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我 们 可 以 执行 这 些 先 前 定义 的 操作 ， 以 便 优 化 CNN 并 评估 案例 中 给 出 的 测试 数据 ， 模 型 在 该 
句子 分 类 任务 中 给 出 了 接近 90% C500 个 测试 句子 ) 的 测试 准确 率 (在 49 个 Epoch 上 ， 训 练 数据 
的 平均 损失 : 0.28， 测 试 数据 的 平均 准确 率 : 88.333， 详 见 代 码 运 行 结果 ) 。 

到 这 里 ， 关 于 使 用 CNN 进行 句子 分 类 的 讲解 就 结束 了 。 我 们 首先 讨论 了 如 何 将 一 维 卷 积 运算 
与 被 称 为 pooling over time 的 特殊 池 化 运算 相 结合 ， 以 实现 基于 CNN 架构 的 句子 分 类 器 。 最 后 ， 
我 们 讨论 了 如 何 使 用 TensorFlow 来 实现 这 样 的 CNN， 我 们 看 到 它 在 句子 分 类 中 表现 良好 。 

了 解 刚 才 解 决 问题 的 思路 , 有 助 于 我 们 在 现实 世界 中 把 这 种 解决 思路 利用 起 来 。 假设 我 们 有 一 
份 关 于 罗马 历史 的 大 型 文档 ， 并 且 我 们 想 要 在 不 阅读 整 篇 文档 的 情况 下 认识 Julius Caesar。 在 这 种 
情况 下 , 我 们 刚刚 实现 的 句子 分 类 器 便 可 以 作为 一 个 工具 来 总 结 只 对 应 于 一 个 人 的 句子 , 不必 阅读 
整个 文档 。 

句子 分 类 也 可 用 于 许多 其 他 任务 , 一 个 常见 的 用 途 是 将 电影 评论 分 类 为 正面 的 或 负面 的 , 这 对 
于 自动 计算 电影 评级 很 有 用 。 句子 分 类 的 另 一 个 重要 应 用 是 在 医学 领域 , 我 们 可 以 从 包含 大 量 文本 
的 大 型 文档 中 提取 出 临床 有 用 的 句子 。 


5.11 总 结 


I&A 


在 本 章 中 ， 我 们 首先 说 明了 CNN 的 来 龙 去 脉 ， 并 对 其 五 个 层级 结构 〈 输 入 层 、 卷 积 运算 层 、 
激励 层 、 池 化 层 、 全 连接 层 ) 和 四 个 基本 运算 单元 ( 卷 积 运算 、 池 化 运算 、 全 连接 运算 和 识别 运算 ) 
有 了 认识 。 

其 次 ， 我 们 结合 CNN 网 络 的 四 个 基本 运算 单元 对 于 CNN 的 五 个 层级 结构 进行 逐一 解析 ， 对 
其 工作 原理 进行 了 详细 剖析 ， 并 讨论 了 几 个 与 这 些 运算 符 相 关 的 超 参 数 ， 例 如 过 滤器 大 小 、 步 幅 和 
填充 。 为 了 更 好 地 解释 CNN 中 的 各 个 组 件 ， 我 们 尽 可 能 详细 地 给 出 了 对 应 的 图 形 化 展示 。 

接着 ， 我 们 给 出 了 几 种 常见 经 典 卷 积 神经 网 络 : AlexNet、VGGNet、Google Inception Net 和 
ResNet， 并 逐一 从 网 络 思 想 、 结 构 、 特 性 亮点 等 方面 做 了 详尽 解读 ， 使 我 们 对 近 些 年 来 听 说 过 的 经 
典 卷 积 网 络 的 发 展 路 径 有 了 一 个 完整 的 认识 。 

最 后 ， 我 们 为 了 将 上 述 解析 的 模型 思想 真正 落 到 代码 层面 ， 给 出 了 两 个 案例 : 利用 CNN 对 
MNIST 数据 集 进行 图 片 分 类 和 利用 CNN 对 句子 进行 分 类 。 在 对 MNIST 数据 集 进行 图 片 分 类 中 ， 
我 们 还 进行 了 一 些 分 析 ， 以 了 解 为 什么 CNN 无 法 正确 识别 某 些 图 像 。 而 在 利用 CNN 对 句子 进行 
分 类 中 ,我 们 讨论 了 可 用 于 对 句子 进行 分 类 的 CNN 架构 , 并 在 实际 的 句子 分 类 任务 上 进行 了 测试 。 

在 下 一 章 中 ,我 们 将 继续 讨论 用 于 许多 NLP 任务 最 流行 的 神经 网 络 之 一 :循环 神经 网 络 (RNN )。 


循环 神经 网 络 


在 本 章 中 ， 我 们 将 介绍 循环 神经 网 络 (Recurrent Neural Network, RNN) ， 它 是 一 类 旨 在 处 理 
输入 序列 数据 的 神经 网 络 ， 专 门 用 于 处 理 序列 x 1,x2,x3,…,x7 这 样 的 神经 网 络 。 这 些 输入 可 以 是 文 
本 、 语 音 、 时 间 序 列 , 序列 中 元 素 的 出 现 取 决 于 其 之 前 出 现 元 素 的 任何 其 他 内 容 。RNN 非常 灵活 ， 
就 像 卷 积 神经 网 络 能 够 很 轻松 地 扩展 到 具有 很 大 宽度 和 高 度 的 图 像 且 可 以 处 理 大 小 可 变 的 图 像 ， 
RNN 能 够 扩展 到 更 长 的 序列 且 多 数 能 够 处 理 可 变 长 度 的 序列 。 正 因为 如 此 ，RNN 已 被 广泛 用 于 解 
决 诸如 语音 识别 、 文 本 生成 、 情 感 分 析 、 图 像 字幕 提取 和 机 器 翻译 等 问题 。 

其 实 ，RNN 在 维护 着 一 个 状态 变量 ， 以 此 获取 序列 数据 中 存在 的 各 种 模式 ， 进 而 能 够 对 序列 
数据 建 模 。 传 统 的 前 馈 神 经 网 络 不 具有 这 种 能 力 , 除非 用 获取 序列 中 存在 的 重要 模式 的 特征 表示 来 
对 数据 进行 表示 。 然 而 ， 对 这 样 的 特征 表示 是 非常 困难 的 。 前 馈 网 络 对 序列 数据 进行 建 模 的 另 一 种 
方案 是 让 时 间 / 顺 序 中 的 每 个 位 置 具有 单独 的 参数 集 , 但 是 这 样 一 来 将 大 大 增加 内 存 的 压力 。 所 以 ， 
这 里 我 们 就 需要 利用 到 二 十 世纪 八 十 年 代 机 器 学 习 和 统计 学 思想 的 优点 : 在 模型 的 不 同 部 分 共享 参 
数 。 因 为 参数 共享 使 模型 能 够 扩展 到 不 同形 式 的 样本 且 可 以 泛 化 。 反 之, 在 每 个 时 间 点 上 均 有 单独 
的 参数 , 这 不 仅 难以 做 到 泛 化 训练 时 未 曾 出 现 过 的 序列 长 度 , 而 且 不 能 在 时 间 上 共享 不 同 序列 长 度 
以 及 各 个 位 置 的 统计 强度 。 比 如 ， 这 里 有 一 个 固定 长 度 的 句子 ， 我 们 要 去 训练 它 ， 传 统 的 全 连接 前 馈 
网 络 会 给 每 个 输入 特征 单独 分 配 一 个 参数 ， 这 样 对 于 句子 中 每 个 位 置 的 所 有 语音 规则 均 需 要 学 习 ， 而 
RNN 由 于 在 多 个 时 间 步 长 内 能 够 共享 相同 的 权重 值 ， 因 此 不 必 对 句子 中 每 个 位 置 的 语言 规则 都 学 习 一 遍 。 

在 本 章 中 , 我 们 将 深入 探讨 RNN 的 细节 .首先 , 我 们 将 通过 计算 图 及 其 循环 图 的 展开 的 计算 ， 
引出 循环 网 络 。 在 此 之 后 ， 我 们 将 通过 序列 数据 模型 引出 RNN 结构 的 简要 计算 ， 并 从 数学 层面 给 
出 详解 。 我 们 还 将 深入 研究 相关 的 基础 方程 ， 例 如 RNN 的 输出 计算 和 参数 更 新 规则 ， 并 讨论 RNN 
应 用 的 几 种 变 体 : 一 对 一 、 一 对 多 、 多 对 一 和 多 对 多 的 RNN。 最 后 将 通过 一 个 案例 具体 介绍 使 用 
RNN 基于 训练 数据 集 来 生成 新 文本 ， 并 讨论 RNN 的 一 些 局 限 性 。 在 计算 和 评估 生成 的 文本 之 后 ， 
我 们 将 讨论 RNN 的 扩展 ， 称 为 RNN-CF， 与 常规 RNN 相 比 记忆 更 长 ， 最 后 通过 RNN-CF 给 出 案 
例 的 优化 ， 并 对 它 进行 解读 和 分 析 。 
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6.1 计算 图 及 其 展开 


计算 图 是 一 种 用 于 表达 和 评估 数学 表达 式 的 方式 , 被 定义 为 有 向 图 , 涉及 的 节点 对 应 于 数学 运 
算 。 例 如 ， 将 输入 、 参 数 映射 到 输出 和 损失 的 计算 等 。 这 里 我 们 结合 RNN 计算 得 到 的 重复 结构 进 
行 阐释 ， 这 些 重复 结构 一 般 对 应 于 一 个 事件 链 。 下 面 给 出 动态 系统 框架 下 的 经 典 形式 : 


St = f (Sq-150) (6.1) 


这 里 st 代表 系统 状态 。 
显然 式 〈6.1) 是 循环 的 ， 对 于 有 限 的 + 而 言 ， 式 6.1) 逐步 展开 最 终 会 得 到 不 涉及 循环 的 表 
达 形式 。 因 此 ， 这 里 我 们 能 够 使 用 传统 的 有 向 无 环 计算 图 给 出 相关 表达 形式 ， 如 图 6-1 所 示 。 


Blei z (6.1) 的 计算 图 
图 6-1 将 式 (6.1) 代表 的 经 典 动态 系统 用 展开 的 计算 图 表示 出 来 。 每 个 节点 表示 在 某 个 时 刻 
1 的 状态 ， 并 且 函 数 .将 t 处 的 状态 映射 到 z+ 1 处 的 状态 。 所 有 时 间 步 长 都 使 用 相同 的 参数 (用 于 
参数 化 /的 相同 o 值 ) 。 
而 在 有 外 部 信号 进入 的 情况 下 ， 由 外 部 信号 xt 驱 动 的 动态 系统 表达 式 如 下 : 
St = f(Sq-1). X60) (62) 
显然 当前 状态 涵盖 了 整个 过 去 的 序列 信息 。 
实际 上 , 涉及 循环 的 任何 函数 本 质 上 可 以 被 认为 是 一 种 循环 神经 网 络 , 且 多 数 循环 神经 网 络 可 
以 由 式 〈6.2) 来 定义 隐藏 单元 的 值 。 下 面 给 出 状态 变量 h 的 公式 ， 也 是 多 数 RNN 中 的 典型 公式 ， 
如 式 (6.3) 所 示 : 
he = f (hy xe 8) (6.3) 


结合 式 (6.3) ， 我 们 给 出 RNN 在 增加 外 部 信号 x 时 读 取 状 态 信息 h 并 进行 预测 的 示意 图 ， 如 
图 6-2 所 示 。 
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62 RNN 在 增加 外 部 信号 x 时 读 取 状态 信息 h 并 进行 预测 的 示意 图 
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图 6-2 中 没有 输出 ， 此 循环 网 络 仅 处 理 来 自 输入 x 的 信息 ， 将 其 合并 到 经 过 时 间 向 前 传播 的 状 
态 1。 左 图 为 回路 原理 图 ， 黑 色 方块 表示 单个 时 间 步 长 的 延迟 。 右 图 为 同一 网 络 被 展开 的 计算 图 ， 
其 中 每 个 节点 现在 与 一 个 特定 的 时 间 实 例 相 关联 。 

这 里 ， 图 6-2 左 图 回路 图 中 黑色 方块 代表 在 时 刻 1 状态 到 时 刻 ++ 1 状态 的 单个 时 刻 延 迟 中 的 
相互 作用 。 
我 们 发 现 ， 对 于 式 (6.30 的 描述 可 以 有 两 种 方式 ， 一 种 是 左 图 代表 回路 原理 的 循环 图 ， 另 一 
种 是 右 图 代表 的 展开 计算 图 。 对 于 左 图 ， 网 络 给 出 了 实时 运算 回路 ， 当 前 状态 会 影响 其 未 来 状态 ; 
对 于 右 图 展开 的 计算 图 而 言 , 里 面 的 任意 一 个 组 件 均 有 多 个 不 同 的 变量 表达 式 , 一 个 时 间 步 长 一 个 
变量 , 表示 该 时 间 点 上 组 件 的 状态 情况 , 每 个 变量 为 计算 图 中 的 一 个 独立 节点 。 下 面 我 们 给 出 一 个 
函数 gt 来 代表 经 + 步 展 开 后 的 循环 : 

he = giOte Xa-1y Xa-2y X22) (6.4) 
-f(ha-1, x50) C C (6.5) 
结合 式 (6.4) 和 式 (6.5) ， 对 于 函数 gt 而 言 ， 它 能 够 将 所 有 之 前 的 序列 (Ke xoay X22321F 
为 输入 以 生成 当前 状态 。 同 时 我 们 可 以 看 到 , 展开 后 的 循环 结构 允许 我 们 把 函数 gt 分解 为 重复 应 用 
的 函数 J。 显 然 ， 展 开 过 程 会 带 来 以 下 好 处 : 
(1) 无 论 序 列 长 度 如 何 ， 训 练 好 的 模型 一 直 具 有 同样 的 输入 大 小 ， 这 是 由 于 它 指 定 的 不 是 在 
可 变 长 度 的 历史 状态 上 运算 ， 而 是 由 一 种 状态 到 另 一 种 状态 的 转移 。 
(2) 在 每 个 时 间 步 长 我 们 可 以 使 用 相同 参数 的 相同 转移 函数 了。 

综 上 所 述 , 循环 图 和 展开 图 都 有 各 自 的 用 途 。 循环 图 很 简洁 ,而 展开 图 可 以 清晰 地 描述 其 中 的 
计算 流程 , 还 可 以 借助 显 式 信息 流 的 流动 路 径 解 释 信 息 在 时 间 上 向 前 (计算 输出 和 损失 ) 和 向 后 ( 计 
算 梯 度 ) 的 作用 。 


6.2 RNN 解读 


6.2.41 序列 数据 模型 
在 现实 世界 中 , 我 们 能 够 接触 到 很 多 像 Way, Xaz,Xa,…,Xr}、Dmu yz,ya…,yr} 这 样 的 序列 式 数据 ， 
并 且 这 些 序列 式 数 据 在 多 个 领域 均 有 相应 的 应 用 ， 比 如 : 
CD 在 自然 语言 处 理 中 ，x1 可 以 作为 第 一 个 词 ，x2 作 为 第 二 个 词 ， 后 面 以 此 类 推 。 
QD 在 语音 处 理 中 ，X1,Xz,Xa… 是 每 帧 的 声音 信号 。 
(3) 在 时 间 序 列 问题 中 ， 像 每 天 的 股票 价格 、 每 天 的 气温 等 。 
结合 6.1 节 的 内 容 ， 我 们 可 以 给 出 x 和 y 的 函数 关系 ， 如 下 : 
he = fi(he_y,xe; 8) (6.6) 
yc = fo(he; 9) (6.7) 
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我 们 可 以 将 有 PADER x 和 y 的 真实 模型 的 近似 值 ， 更 细 一 点 讲 ， 将 式 (6.6) . (67D 
扩展 如 下 : 


ye = ff Xe hai 8); 9) (6.8) 
假设 这 里 tS4， 由 式 (6.8) 可 知 y 为 : 
Va = fafa ha: 0); p) (6.9) 


下 面 对 式 (6.9) 做 进一步 展开 , 我 们 可 以 得 到 最 终结 果 ( 为 了 表达 式 清晰 起 见 , 这 里 省 略 9 和 4 ): 
Va = fafa Xa ffs fa T Qro» fof Ori, ho)))))))). (6.10) 
我 们 将 式 (6.10) 在 图 中 进行 展示 ， 如 图 6-3 所 示 。 


Q oOoO 


oDDD- 
四 加 四 加 


图 6-3 Xt 和 y, 之 间 的 关系 图 ， 随 着 1 的 增加 ， 后 面 继续 扩展 


这 里 ， 一 个 箭头 表示 对 相应 向 量 做 一 次 类 似 f (Wx +b) 的 变换 。 
对 于 任何 给 定 的 时 间 步 长 t， 我 们 一 般 以 图 6-4 来 概括 。 


t 
GJ 
OO 
图 6-4 一 个 RNN 结构 的 单 步 计算 示意 图 


尽管 如 此 ， 对 于 Ina 而 言 ， 实 际 上 是 接收 Xe 之 前 的 he。 也 就 是 说 ，hr 实际 上 是 一 个 时 间 步 长 之 
前 的 he。 所 以 ， 我 们 可 以 使 用 循环 连接 来 表示 心 的 运算 情况 ， 如 图 6-5 所 示 。 
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图 6-5 利用 循环 连接 对 RNN 结构 的 单 步 计 算 示 意图 
ik: 这 里 的 黑色 框 与 6.1 节 中 的 含义 一 样 ， 即 代表 单个 时 间 步 长 的 延迟 


在 图 6-5 中 ,我 们 可 以 看 到 ， 这 里 概括 了 序列 {Xi,Xz,X3,…,X7} 映 射 到 序列 {yj,y2,y3,…,y7} 的 
方程 链 。 更 进一步 讲 ， 通 过 h(w_1)、he、Xt 可 以 得 到 任意 的 y:， 这 也 是 RNN 的 核心 思想 所 在 。 


6.2[2 ”数学 层面 简要 解读 RNN 


现在 让 我 们 继续 研究 一 下 RNN 到 底 是 什么 ， 并 为 RNN 中 的 计算 定义 数学 方程 式 。 让 我 们 从 
派生 的 两 个 函数 开始 ， 作 为 从 立 学 习 的 函数 逼近 器 : 
he = fi (Xe hoy 8) 
yc = falh 9) 
正如 我 们 所 看 到 的 那样 ,神经 网 络 由 一 组 权重 值 、 偏 差 和 非 线性 激活 函数 所 组 成 , 我 们 可 以 改 
写 前 面 的 关系 如 下 : 


he = tanh(Uxe + Whe-1)) 


这 里 ，tanhO 〇 是 tanh 激活 函数 ，U 是 大 小 为 mxd 的 权重 值 窃 阵 ， 其 中 m 是 隐藏 单元 的 数量 ， 
d 是 输入 的 维 数 。 此 外 ,， 球 是 大 小 为 mm 的 权重 值 矩 阵 ， 它 创建 了 从 jerp 到 思 的 循环 连接 。 上面 
的 ye 关系 式 可 由 以 下 等 式 给 出 : 

yr = softmax(Vh,) 

这 里 ,VV 是 大 小 为 cxm 的 权重 值 算 阵 ，e 是 输出 的 维 数 〈 可 以 是 输出 类 的 数量 ) 。 这 样 一 来 ， 
我 们 就 可 以 给 出 这 些 权重 值 形成 RNN 的 路 径 图 ， 如 图 6-6 所 示 。 

综 上 所 述 , 我 们 已 经 阐释 了 通过 计算 节点 图 来 表示 一 个 RNN, 并 大 致 学 习 了 RNN 背后 的 数学 
逻辑 关系 。 下 一 步 ， 我 们 将 对 RNN 的 权重 值 进行 优化 《或 者 训练 ) ， 以 便 更 好 地 学 习 序列 数据 样 
本 。 


166 | TensorFlow 与 自然 语言 处 理应 用 


图 6-6 RNN 的 结构 示意 图 ， 边 表示 计算 


6.3 ”通过 时 间 的 反 向 传播 算法 


对 于 训练 RNN， 使 用 一 种 特殊 形式 的 反 向 传播 ， 称 为 通过 时 间 的 反 向 传播 (Back Propagation 
Through Time, BPTT) 。 本 节 首 先 介绍 反 向 传播 BP) 的 工作 原理 ; 然后 讨论 为 什么 反 向 传播 不 
能 直接 应 用 于 RNN， 以 及 反 向 传播 如 何 适 应 RNN 后 可 以 产生 BPTT; 最 后 讨论 BPTT 中 存在 的 两 
个 主要 问题 。 


6.3.1 反 向 传播 工作 原理 


反 向 传播 是 用 于 训练 前 馈 神经 网 络 的 技术 ， 在 反 向 传播 中 ， 执 行 以 下 操作 : 


CD 计算 给 定 输入 的 预测 。 
(2) 通过 将 预测 与 对 应 实际 值 进 行 比较 来 计算 预测 误差 E CDL Jr AER SE SORA. 。 
G) 在 所 有 层 上 的 所 有 权重 值 wGij) (第 i 层 上 第 j 个 权重 值 ) 的 梯度 2E 的 反方 向 调整 一 个 


awaj) 


小 的 步 长 ， 更 新 前 馈 网 络 的 权重 值 ， 从 而 使 得 步骤 OD 中 的 计算 损失 最 小 化 。 


为 了 方便 理解 , 我 们 这 里 给 出 前 馈 网 络 的 示意 图 且 省 去 了 输入 和 输出 的 时 间 部 分 。 这 里 有 两 个 
单一 权重 值 : U 和 V， 且 计算 出 两 个 输出 h 和 y， 具 体 如 图 6-7 所 示 《〈 这 里 假设 模型 中 不 存在 非 线 
性 ) 。 
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图 6-7 前 馈 网 络 计算 
所 以 ， 我 们 可 以 利用 链 式 法 则 计算 至 ， 如 下 : 


QE  à(y-D? avh) Q(Ux) 
QU ay Oh OU 


进一步 简化 得 到 : 2E BLOyOh 


QU  ðy ðh ðU 
这 里 ，7 是 数据 点 x 的 正确 标签 。 此 外 ， 我 们 假设 均 方 误差 为 损失 函数 。 这 里 的 所 有 内 容 都 已 
定义 ,计算 总 就 较为 简单 了 。 


6.3.2 ”直接 使 用 反 向 传播 的 局 限 性 


现在 ， 我 们 对 图 6-8 中 的 RNN 进行 类 似 的 操作 ， 这 里 新 增加 了 一 个 循环 权重 值 W。 


on 
V 
C =UZT+Wh 


U 
图 6-8 RNN 的 计算 
下 面 对 到 的 计算 使 用 链 式 法 则 ， 得 到 : 
BE _ 2L 3y Oh 
ðw ôy ðh ôW 
. 9(y-D? ðh) ,Q(Ux) , 9(Wh) 
^ ðy ðh C aw aw ) 


这 里 ， 由 于 2 是 一 个 递归 项 ， 本 身 就 会 带 来 一 些 问题 。 最 终 会 得 到 无 穷 多 的 导数 项 ,因为 
是 递归 的 《也 就 是 说 ， 计 算 刀 包括 三 本 身 ) ， 且 b 不 是 常数 并 依赖 于 W。 在 这 种 情况 下 ， 我 们 需 
要 利用 基于 时 间 展 开 输 入 序列 x 来 解决 ， 为 每 个 输入 xz 创 建 RNN 的 副本 并 分 别 计算 每 个 副本 的 导 
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数 ， 通 过 对 梯度 求 和 将 它们 回 滚 以 更 新 权重 值 。 接 下 来 简要 讨论 一 下 具体 情况 。 


6.3.3 ”通过 反 向 传播 训练 RNN 


计算 RNN 反 向 传播 的 技巧 是 不 考虑 单个 输入 ， 而 是 考虑 完整 的 输入 序列 。 如 果 我 们 在 时 间 步 
长 为 4 上 时 计算 经， 将 得 到 以 下 结果 : 


ðE wa OL OyaOhaohj 


aw &j=1 3y, ðh, Oh; OW 
这 意味 着 我 们 需要 一 直 计算 到 第 4 个 时 间 步 长 的 所 有 时 间 步 长 的 梯度 之 和 。 换 名 话说, 我 们 将 
首先 展开 序列 , 以 便 可 以 计算 每 个 时 间 步 长 j MERI, 这 是 通过 创建 RNN 的 4 个 副本 来 完成 的 。 
因此 ， SHE. 就 需要 (tj+l) 份 的 RNN。 接 着 将 这 些 副本 卷 起 到 单个 RNN， 通 过 之 前 所 有 时 间 
步 长 获得 的 梯度 归 总 求 和 ， 并 用 梯度 至 更 新 RNN。 但 是 ， 这 里 有 一 个 问题 ， 随 着 时 间 步 长 数 的 增 
Jn, 相应 计算 成 本 也 会 增加 。 为 了 解决 这 个 问题 , 我 们 将 会 使 用 截断 BPTT (TBPTT) 来 优化 模型 ， 
这 是 BPTT 的 近似 值 。 


6.34 截断 BPTT 


在 截断 BPTT 中 ， 我 们 只 计算 固定 数量 的 T 个 时 间 步 长 的 梯度 ， 更 具体 地 说 ， 在 计算 到 时， 
对 于 时 间 步 长 t， 我 们 只 计算 导数 ， 直 到 CT: 
A ahe aiy 
aw J ayt ht Ohj OW 
这 比 标准 BPTT 计算 效率 高 得 多 。 在 标准 BPTT 中 ， 对 于 每 个 时 间 步 长 t, 我 们 计算 直到 序列 最 开 
双 的 导数 ， 但 随 着 序列 长 度 变 得 越 来 越 长 例如 逐 字 处 理 文本 文档 ) ， 这 种 计算 是 难以 实现 的 。 而 在 
截断 的 BPTT 中 ， 我 们 仅 向 后 计算 固定 数量 的 导数 ， 可 以 想象 ， 随 着 序列 变 大 ， 计 算 成 本 不 会 改变 。 


6.3.5 BPTT 的 局 限 性 一 一 梯度 消失 和 梯度 爆炸 


我 们 有 办 法 计算 循环 权重 值 的 梯度 并 给 出 有 效 的 近似 值 ， 如 TBPTT， 这 让 我 们 对 于 平稳 地 训 
练 RNN 感到 担忧， 这 里 的 计算 其 实 出 现 了 其 他 问题 。 
为 了 了 解 其 中 的 原因 ， 让 我 们 在 至 中 进行 相关 扩展 ， 如 下 所 示 : 


OyaOhaOhi OW Oy, Oh4 — Oh, aw 
由 于 我 们 知道 反 向 传播 的 问题 来 自 循环 连接 层 ， 让 我 们 忽略 Ux 项 ， 上 式 后 边 变 为 : 


Oya Oha 0h, OW OyaOhs Oh, W 
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下 面 我 们 对 hs 继续 展开 简单 运算 ， 得 到 : 


Bya Oha 0h, OW Pys Oh, 


这 里 我 们 看 到 只 有 4 个 时 间 步 长 便 产 生 一 个 W3， 因 此 在 时 间 步 长 为 “第 几 个 ”时 ， 它 将 变 为 
W0 DD。 下 面 从 两 个 方向 对 W 进行 极 值 分 析 ， 以 此 探讨 梯度 消失 和 梯度 爆炸 的 成 因 。 

1. 梯度 消失 

假设 我 们 在 n= 100 的 时 间 步 长 上 将 W 初始 化 得 非常 小 (比如 0.00001) ， 那 么 梯度 将 会 无 穷 
小 (比如 0.195 。 另 外 ， 由 于 计算 机 在 表示 数值 方面 的 精度 有 限 ， 因 此 将 此 更 新 (数值 下 涪 ) 忽 
略 ， 这 被 称 为 消失 的 梯度 。 解 决 消失 的 梯度 问题 并 不 简单 。 这 里 没有 简单 的 方法 来 重 塑 梯度 ， 以 便 
它 能 够 在 时 间 上 正确 传播 。 在 某 种 程度 上 ， 解 决 梯度 消失 问题 的 方法 是 谨慎 使 用 权重 值 初始 化 〈 例 
如 Xavier 初始 化 ) ， 或 使 用 基于 动量 的 优化 方法 (也 就 是 说 ， 除 了 当前 的 梯度 更 新 外 ， 我 们 还 添 
加 了 一 个 额外 项 ， 即 所 有 过 去 梯度 的 累积 ， 称 为 速度 项 (Velocity Term) ) 。 然 而 ， 正 如 我 们 将 在 
第 7 章 “ 长 短期 记忆 网 络 ”中 看 到 的 那样 ， 已 经 引入 了 更 多 有 规则 的 解决 方法 ， 例 如 对 标准 RNN 
的 不 同 结构 调整 等 。 

2. 梯度 爆炸 


假设 我 们 将 W 的 取 值 初始 化 得 非常 大 (比如 1000.00，， 则 在 时 间 步 长 n 取 100 时 ， 梯 度 将 变 
得 非常 大 比例 为 103"”) 。 这 会 导致 数值 非常 不 稳定 ， 在 Python 中 将 会 获得 诸如 nf EAK) 
或 NaN (不 是 一 个 数值 ) 之 类 的 结果 ， 这 就 称 为 梯度 爆炸 。 

其 实 , 问题 损失 表面 产生 的 复杂 性 也 可 能 引起 梯度 爆炸 。 由 于 输入 的 维 数 以 及 模型 中 存在 的 大 
量 参数 (权重 值 ) ， 复 杂 的 非 凸 损 失 表 面 在 深度 神经 网 络 中 非常 普遍 。 图 6-9 显示 了 RNN 的 损失 
表面 ， 并 突出 显示 了 有 具有 很 高 曲率 表面 的 存在 。 如 果 优 化 方法 与 这 样 的 表面 接触 ， 梯 度 就 会 爆炸 ， 
如 图 6-9 中 的 实 线 所 示 。 这 可 能 导致 非常 差 的 损失 最 小 化 或 数值 不 稳定 性 或 两 者 兼 而 有 之 。 在 这 种 
情况 下 ， 避 免 梯度 爆炸 的 简单 解决 方案 是 在 梯度 大 于 某 个 阔 值 时 将 梯度 取 值 调整 为 足够 小 。 图 6-9 
中 的 虚线 表示 当 我 们 将 梯度 调整 为 某 个 较 小 值 时 会 发 生 什么 。 


2 
54 -26 -24 
* -28 -2.6value of b 


6-9 ”梯度 爆炸 情况 
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关于 训练 RNN 中 的 梯度 问题 ， 论 文 《Om the Difficulty of Training Recurrent Neural Networks) 
(Pascanu,Mikolov, and Bengio, International Conference on Machine Learning (2013): 1310-1318) 做 
了 相关 分 析 ， 感 兴趣 的 读者 可 以 阅读 该 论文 。 
到 目前 为 止 , 我 们 讨论 的 都 是 一 对 一 映射 的 RNN。 接 下 来 , 我 们 将 对 各 种 映射 类 型 的 RNN 做 
相关 介绍 ， 这 些 不 同 映射 类 型 的 RNN 在 句子 分 类 、 图 像 字幕 提取 及 机 器 翻译 中 有 很 好 的 应 


6.4 RNN 的 应 用 类 型 


-对 一 映射 的 RNN 中 ， 当 前 输出 取决 于 当前 输入 以 及 先前 观察 到 的 输入 历史 。 这 意味 着 存在 
先前 观察 到 的 输入 序列 和 当前 输入 的 输出 。 然 而 ,在 实际 的 应 用 中 ， 可 能 存在 这 样 的 情况 : 输入 序 
列 只 有 一 个 输出 、 单 个 输入 产生 的 输出 序列 以 及 序列 大 小 不 同 的 输入 序列 产生 的 输出 序列 。 在 本 节 
中 ， 我 们 将 对 这 些 情况 做 相关 介绍 。 


6.4.1 一 对 一 的 RNN 


在 一 对 一 的 RNN 中 ， 目 前 的 输入 取决 于 先前 观察 到 的 输入 ， 如 图 6-10 所 示 。 这 种 RNN 适用 
于 每 个 输入 都 有 输出 的 问题 , 但 输出 取决 于 当前 输入 和 导致 当前 输入 的 输入 历史 情况 。 这 类 任务 的 
-个 典型 例子 是 股票 市 场 预测 。 另 一 个 例子 是 场景 分 类 , 其 中 图 像 中 的 每 个 像素 被 标记 (例如 汽车 、 
道路 和 人 的 标签 ) 。 对 于 某 些 问题 ， 有 时 x(e41) 可 能 与 ye 相同 。 例如， 在 文本 生成 问题 中 ， 先 前 预 
测 的 词 变 为 预测 下 一 个 词 的 输入 。 


One-to-One 
RNN TT 


6.4.2 一 对 多 的 RNN 


一 对 多 的 RNN 采用 单个 输入 并 输出 序列 ， 如 图 6-11 所 示 。 这 里 假设 输入 彼此 之 间 是 独立 的 。 
也 就 是 说 , 我 们 不 需要 有 关 先 前 输入 的 信息 来 预测 当前 输入 。 循环 连接 还 是 需要 的 ， 因为 尽管 我 们 
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处 理 单个 输入 ， 但 输出 依赖 于 先前 输出 值 的 一 系列 值 。 这 类 RNN 常 应 用 于 图 像 字幕 任务 ， 例 如 对 
于 给 定 的 输入 图 像 ， 文 本 标题 可 以 由 5 个 或 10 个 词 所 组 成 。 换 名 话说，RNN 将 保持 预测 词 ， 直 到 
它 输出 的 短语 对 于 描述 图 像 是 有 意义 的 。 


图 6-11 一 对 多 的 RNN 


6.4.3 多 对 一 的 RNN 


多 对 一 的 RNN 采用 任意 长 度 的 输入 作为 输入 ， 并 为 输入 序列 产生 单个 输出 ， 如 图 6-12 所 示 。 
句子 分 类 就 是 这 样 一 项 任务 ， 可 以 从 多 对 一 的 RNN 中 受益 。 句 子 是 任意 长 度 的 词 序列 ， 其 被 视 为 
网 络 的 输入 ， 用 于 产生 将 句子 分 类 为 一 组 预定 义 类 之 一 的 和 输出。 句子 分 类 的 一 些 具体 例子 如 下 


COD 将 电影 评论 分 类 为 正面 或 负面 陈述 〈 情 感 分 析 ) 。 
(20 根据 句子 描述 的 内 容 〈 例 如 和 信物、 对 象 和 位 置 ) 对 句子 进行 分 类 。 


多 对 一 的 RNN 的 另 一 个 应 用 是 通过 一 次 只 处 理 一 块 图 像 并 在 整个 图 像 上 移动 窗口 来 对 大 尺寸 
图 像 进行 分 类 。 


y3 


图 6-12 多 对 一 的 RNN 


6.4.4 多 对 多 的 RNN 


多 对 多 的 RNN 通常 从 任意 长 度 的 输入 中 产生 任意 长 度 的 输出 ， 如 图 6-13 所 示 。 换 句 话说 ， 输 
入 和 输出 不 必 具 有 相同 的 长 度 。 这 在 机 器 翻译 中 特别 有 用 , 我 们 将 句子 从 一 种 语言 翻译 成 另 一 种 语 
言 时 ， 可 以 想象 ， 某 种 语言 中 的 一 个 句子 并 不 总 是 与 另 一 种 语言 的 句子 对 齐 。 另 一 个 应 用 是 聊天 机 
器 人 ， 聊 天 机 器 人 读 取 一 系列 词 〈 用 户 请 求 ) 并 输出 一 系列 词 〈 答 案 ) 。 
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图 6-13 多 对 多 的 RNN 


6.5 利用 RNN 生成 文本 


现在 让 我 们 看 一 下 使 用 RNN 的 第 一 个 例子 。 在 本 例 中 , 我 们 将 使 用 RNN 生成 一 个 童话 故事 。 
这 是 一 对 一 的 RNN 问题 。 我 们 将 在 一 系列 童话 故事 中 训练 单 层 RNN， 并 要 求 RNN 生成 一 个 新 故 
事 。 对 于 这 项 任务 ,我 们 将 使 用 一 个 包含 20 个 不 同 故事 的 小 型 文本 语料库 。 这 个 例子 将 突显 出 RNN 
的 一 个 重大 局 限 性 : 缺乏 持久 的 长 期 记忆 。 本 例 代 码 详 见 ch6 文件 夹 中 的 
6 mn language bigram.ipynb 文件 。 


6.5.1 定义 超 参数 


定义 RNN 所 需 的 几 个 超 参 数 具 体 如 下 : 


(1) 单个 时 间 步 长 一 次 性 执行 的 展开 次 数 。 这 是 输入 展开 的 步 数 , 如 截断 BPTT 方法 (TBPTT 
中 的 T CTruncated). 是 有 效 训 练 RNN 部 分 ) 中 所 讨论 的 。 该 数字 越 大 ，RNN 的 记忆 越 长 。 但 是 ， 
由 于 梯度 消失 因素 ， 对 于 非常 高 的 num_unroll 值 ( 例 如 大 于 500 ， 此 值 的 效果 会 消失 。 注 意 ， 增 
加 num_unroll 也 会 增加 程序 的 内 存 需 求 。 

(2) 训练 数据 、 验 证 数据 和 测试 数据 的 批量 大 小 。 较 高 的 批量 大 小 通常 会 带 来 更 好 的 结果 ， 
因为 我 们 会 在 每 个 优化 步骤 中 看 到 更 多 数据 , 然而 和 num unroll 一 样 , 这 会 导致 更 高 的 内 存 需 求 。 

G) 输入 、 输 出 和 隐藏 层 的 维度 。 增 加 隐藏 层 的 维度 通常 会 带 来 更 好 的 性 能 。 但 请 注意 ， 增 
加 隐藏 层 的 大 小 会 导致 所 有 三 个 权重 值 集合 ( 即 U、W 和 VO 的 增加 ， 从 而 导致 占用 较 高 的 计算 
空间 。 


首先 定义 展开 、 批 量 并 测试 批量 大 小 : 


num unroll = 50 
batch size — 64 
test batch size = 1 


接 下 来 定义 隐藏 层 中 的 单元 数 〈 这 里 使 用 单个 隐藏 层 RNN) ， 给 出 输入 和 输出 大 小 : 


hidden = 64 


in size,out size = vocabulary size,vocabulary size 
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6.5.2” 随 着 时 间 的 推移 展开 截断 BPTT 的 输入 


正如 我 们 之 前 看 到 的 ， 随 着 时 间 的 推移 展开 输入 是 RNN 优化 过 程 (TBPTT) 中 的 重要 部 分 。 
因此 ， 下 一 步 是 : 定义 输入 如 何 随 时 间 展 开 。 
这 里 给 出 一 个 例子 ， 假 设 有 一 个 句子 如 下 : 


Bob and Mary went to buy some flowers. 


假设 我 们 以 字符 的 粒度 级 别处 理 数据 。 另 外 ， 考 虑 一 批 数据 ， 并 且 展 开 的 步 数 Cnum_unroll) 


是 5 

首先 ， 我 们 将 句子 拆 分 成 字符 : 

'B', 'o', 'b', ' ', 'a', 'n', 'd', ' !', 'M', Pat, rr yy ! !, "w', "et, no 
We CÁC, Cot, 1 C8, i, ut, yh C8, Ist, Tot, Im, eh t ty EIN Ip, 


wok. Wu Sat. rk. aur 
我 们 采用 展开 的 前 三 批 输入 和 输出 ， 如 表 6-1 所 示 。 
表 6-1 前 三 批 输入 和 输出 


'n', — M! 'a' 


通过 这 样 做 ，RNN 一 次 看 到 相对 长 的 数据 序列 ， 不 像 一 次 处 理 单个 字符 。 因 此 ， 它 可 以 保留 
更 长 的 序列 记忆 : 


train dataset, train labels = [],[] 
for ui in range (num unroll): 
train dataset.append(tf.placeholder (tf.float32, 
shape-[batch size,in size],name-'train dataset $d'*ui)) 
train labels.append(tf.placeholder (tf.float32, 


Shape-[batch size,out size],name-'train labels $d'$ui)) 


6.5.0 ”定义 验证 数据 集 


我 们 将 定义 一 个 验证 数据 集 以 测量 RNN 随时 间 的 性 能 情况 。 我 们 不 会 使 用 验证 集中 的 数据 进 
行 训练 ， 只 观察 验证 数据 的 预测 作为 RNN 性 能 的 指标 : 


valid dataset = tf.placeholder (tf.float32, 
shape=[1,in size],name-'valid dataset') 
valid labels = tf.placeholder(tf.float32, 


shape-[1,out size],name-'valid labels') 
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我 们 使 用 较 长 的 故事 收集 验证 集 , 并 从 最 后 提取 故事 的 一 部 分 代码 文件 中 有 详细 的 解释 记录 ， 
读者 可 以 自行 查看 。 


6.5.4 定义 权重 值 和 偏差 


在 这 里 ， 我 们 将 定义 RNN 的 几 个 权重 值 和 偏差 参数 。 
@ Wh: 输入 和 隐藏 层 之 间 的 权重 值 。 
€ W hh: 隐藏 层 的 重复 连接 的 权重 值 。 
€ Why: 隐藏 层 和 输出 之 间 的 权重 值 。 


W xh = tf.Variable(tf.truncated normal ( 
[in size,hidden],stddev-0.02, 
dtype-tf.float32),name-'W xh') 
W hh = tf.Variable(tf.truncated normal([hidden,hidden], 
stddev-0.02, 
dtype-tf.float32),name-'W hh') 
W hy = tf.Variable(tf.truncated normal( 
[hidden,out size],stddev-0.02, 
dtype-tf.float32),name-'W hy!) 


6.5.5 ”定义 状态 永久 变量 


在 这 里 , 我 们 将 定义 用 于 区 分 RNN 与 前 馈 神 经 网 络 的 最 重要 的 实体 之 一 : RNN 的 状态 。 状 态 
变量 代表 RNN 的 记忆 。 此 外 ， 这 些 被 建 模 为 不 可 训练 的 TensorFlow 变量 。 

我 们 将 首先 定义 变量 (训练 数据 : prev train h 和 验证 数据 : prev_valid h) 以 维持 用 于 计算 当 
前 隐藏 状态 的 隐藏 层 的 先前 状态 。 我 们 将 定义 两 个 状态 变量 。 一 个 状态 变量 在 训练 期 间 维持 RNN 
的 状态 ， 另 一 个 状态 变量 在 验证 期 间 维持 RNN 的 状态 : 


prev train h = tf.Variable(tf.zeros([batch size,hidden], 


dtype-tf.float32),name-'train h',trainable-False) 
name-'prev hl',trainable-False) 
prev valid h = tf.Variable(tf.zeros([1,hidden],dtype-tf.float32), 


name-'valid h',trainable-False) 


6.5.6 ”使 用 展开 的 输入 计算 隐藏 状态 和 输出 


接 下 来 ,我 们 将 定义 每 个 展开 输入 的 隐藏 层 计算 、 非 标准 化 分 数 和 预测 。 为 了 计算 每 个 隐藏 层 
的 输出 ， 我 们 保存 表示 每 个 展开 元 素 的 num_unroll 隐藏 状态 输出 〈 代 码 中 的 outputs) 。 然 后 计算 
所 有 num unroll 步 的 非 标准 化 预测 (也 称 为 logits 或 得 分 ) 和 softmax 预测 。 
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+ 在 num_unrol1l 步 数 中， 为 每 个 步 长 添加 上 计算 的 RNN 输出 
outputs = list() 
+ 这 将 在 计算 的 num. unroll PRP C RH 
output h = prev train h 
# 计算 num unroll 步 数 的 RNN 输出 (根据 截断 的 BPTT 的 要 求 ) 
for ui in range (num unroll): 
output h = tf.nn.tanh( 
tf.matmul(tf.concat([train dataset[ui],output h],1), 
tf.concat([W xh,W hh],0)) 
) 
outputs.append(output h) 


然后 计算 非 标准 化 预测 Cy scores) 和 标准 化 预测 Cy predictions) ， 如 下 所 示 : 
+ 获取 我 们 为 aum_unrol1 步 生成 的 所 有 RNN 输出 的 分 数 和 预测 


y Scores = [tf.matmul(outputs[ui],W hy) for ui in range (num unroll)] 
y predictions = [tf.nn.softmax(y scores[ui]) for ui in range (num_ 
unroll)] 


6.5.7 计算 损失 


在 计算 预测 之 后 ， 接 着 计算 mn loss. AREMA UR SE Ed b zo FRI S SUR. SERO 
我 们 调用 tf£.control. dependencies(.…) 函 数 将 RNN(output. b) 的 最 后 一 个 输出 保存 到 prev. train. h 变量 
中 。 因 此 ， 在 下 一 次 迭代 中 ， 我 们 可 以 把 先前 保存 的 RNN 输出 作为 初始 状态 : 


# 确 保 在 计算 损失 之 前 ， 使 用 获得 的 最 后 一 个 RNN 输出 状态 来 更 新 状态 变量 
with tf.control dependencies([tf.assign(prev train h,output h)]): 
# 计 算 在 所 有 num unroll 步 中 一 次 性 获得 的 所 有 预测 的 softmax XLA 
rnn loss = tf.reduce mean( 
tf.nn.softmax cross entropy with logits v2( 
logits-tf.concat(y scores,0), 
labels-tf.concat(train labels,0) 
) ) 


6.5.8 在 新 文本 片段 的 开头 重 置 状态 


我 们 还 需要 定义 隐藏 状态 重 置 操作 。 在 测试 时 生成 新 的 文本 块 之 前 ， 尤 其 需要 使 用 重 置 操作 ， 
否则 RNN 将 继续 产生 依赖 于 先前 产生 的 文本 ， 从 而 导致 高 度 相关 的 输出 。 若 是 如 此 ， 就 很 糟糕 ， 
因为 它 最 终 将 引起 RNN 一 遍 又 一 遍地 输出 相同 的 词 。 实 际 上 ， 在 训练 期 间 重 置 状 态 是 否 有 益 仍然 
存在 争议 。 不 过 ， 我 们 为 此 定义 了 TensorFlow 操作 : 


# 重 置 隐藏 状态 
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reset train h op = tf.assign(prev train h,tf.zeros( 
[batch size,hidden], 
dtype-tf.float32)) 
reset valid h op - tf.assign(prev valid h,tf.zeros( 


[1,hidden],dtype-tf.float32)) 


6.5.9 计算 验证 输出 


这 里 ， 类 似 于 训练 状态 、 损 失 和 预测 计算 ， 我 们 定义 了 用 于 验证 的 状态 、 损 失 和 预测 : 

# 计 算 下 一 个 有 效 状态 ( 仅 1 步 ) 

next valid state = tf.nn.tanh(tf.matmul (valid dataset,W xh) + 
tf.matmul(prev valid h,W hh)) 

* 使 用 RNN 的 状态 输出 计算 预测 

# 但 在 此 之 前 ， 将 RNN 的 最 新 状态 输出 分 配给 验证 阶段 的 状态 变量 

# 所 以 需要 确保 执行 valid predictions 操作 以 更 新 验证 状态 

with tf.control dependencies([tf.assign(prev valid h,next valid. 

state)]): 


valid scores - tf.matmul(next valid state,W hy) 


valid predictions - tf.nn.softmax(valid scores) 


6.5.00 ”计算 梯度 和 优化 


由 于 已 经 定义 了 RNN 的 损失 ,我 们 将 使 用 随机 梯度 方法 来 计算 梯度 并 使 用 它们 。 为 此 ， 我 们 
使 用 TBPTT。 在 这 种 方法 中 ， 我 们 将 随时 间 而 展开 RNN 类 似 于 我 们 如 何 随时 间 展 开 输入 〉 并 计 
算 梯 度 ， 然 后 回 滚 计 算 的 梯度 以 更 新 RNN 的 权重 值 。 此 外 ， 我 们 将 使 用 AdamOptimizer， 这 是 一 
种 基于 动量 的 优化 方法 , 它 显示 出 比 标准 随机 梯度 下 降 更 好 的 收敛 速度 ,此 外 ,使 用 Adam Optimizer 
时 请 确保 使 用 较 小 的 学 习 率 (例如 介 于 0.001 和 0.0001 之 间 ) 。 我 们 还 将 使 用 梯度 裁剪 来 防止 任何 
潜在 的 梯度 爆炸 : 


rnn optimizer = tf.train.AdamOptimizer(learning rate=0.001) 
gradients, v = zip(*rnn optimizer.compute gradients (rnn loss)) 
gradients, _ = tf.clip by global norm(gradients, 5.0) 


rnn optimizer = rnn optimizer.apply gradients (zip (gradients, v)) 


6.6 输出 新 生成 的 文本 片段 


下 面 来 看 如 何 使 用 训练 模型 输出 新 文本 。 在 这 里 , 我 们 将 预测 一 个 词 ,将 该 词 用 作 下 一 个 输入 
并 预测 另 一 个 词 ， 以 这 种 方式 继续 进行 几 个 时 间 步 长 : 
# 获 取 测 试 阶段 隐藏 节点 的 先前 状态 
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prev test h = tf.Variable(tf.zeros([test batch size,hidden], 


dtype-tf.float32),name-'test h') 


# 测试 数据 集 


test dataset = tf.placeholder(tf.float32, shape-[test batch size, 


in size],name-'test dataset!) 


# 计算 测试 数据 的 隐藏 输出 


next test state = tf.nn.tanh(tf.matmul(test dataset,W xh) + 


tf.matmul(prev test h,W hh) 


) 
# 确保 每 次 进行 预测 时 都 更 新 测试 阶段 的 隐藏 状态 


with tf.control dependencies([tf.assign(prev test h,next test 


state)]): 


test prediction - tf.nn.softmax(tf.matmul(next test state,W hy)) 


# 请 注意 ， 我 们 在 重 置 测试 状态 时 使 用 了 小 的 赋值 〈 一 些小 的 填充 〈imputations) ) 


# 这 有 助 于 为 生成 的 文本 添加 更 多 变量 


reset test h op = tf.assign(prev test h,tf.truncated normal( 


[test batch size,hidden],stddev-0.01, 


dtype-tf.float32)) 


6.7 评估 RNN 的 文本 结果 输出 


这 里 我 们 将 显示 使 用 RNN 生成 的 文本 片段 ， 显 示 不 使 用 输入 展开 时 以 及 使 用 输入 展开 时 的 结 


果 。 


在 没有 输入 展开 的 情况 下 ， 在 10 个 epoch 〈 即 训练 10 遍 ) 之 后 ， 得 到 以 下 结果 : 


him he had then the king then the king ferdinand the fait, and the 
king, and the king, and the king, and the king, and the king, and 
the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, 


king, and the 
the king, and 
and the king, 
and the king, 
and the king, 
and the king, 
and the king, 
and the king, 
and the king, 
and the king, 
and the king, 
and the king, 


and the king, and the king, and the king, and the king, and the king, and... 


而 在 输入 展开 时 ， 在 10 个 epoch 后 将 获得 以 下 内 容 : 


-.. god grant that our sister may be here, and then we shall be free. 


when the maiden,who was standing behind the door watching, heard thatwish, 
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she came forth, and on this all the ravens were restored to their 
human form again. and they embraced and kissed each other, 

and went joyfully home whome, and wanted to eat and drink, and 
looked for their little plates and glasses. then said one after 
the other, who has eaten something from my plate. who has drunk 
out of my little glass. it was a human mouth. and when the 
seventh came to the bottom of the glass, the ring rolled against 
his mouth. then he looked at it, and saw that it was a ring 
belonging to his father and mother, and said, god grant that our 


sister may be here, and then we shall be free. .. 


从 这 些 结果 中 , 我 们 可 以 观察 到 一 点 ,与 每 次 处 理 单个 输入 相 比 ， 它 实际 上 有 助 于 随时 间 推 移 
进行 输入 展开 。 然 而 即使 展开 输入 ， 也 存在 一 些 语法 错误 和 罕见 的 拼写 错误 (这 是 可 以 接受 的 ， 因 
为 我 们 一 次 处 理 两 个 字符 ) 。 

另 一 点 值得 注意 的 是 ， 我 们 的 RNN 试图 通过 组 合 之 前 看 到 的 不 同 故事 来 产生 一 个 新 的 故事 。 
我 们 可 以 看 到 ,首先 谈论 的 是 乌鸦 ， 然 后 通过 谈论 盘子 和 有 人 从 盘子 里 吃 东西 ， 把 故事 转移 到 类 似 
于 金发 姑娘 和 三 只 熊 (Goldilocks and the Three Bears) 的 故事 。 接 下 来 , 这 个 故事 引出 了 一 枚 戒指 。 

这 意味 着 RNN 已 经 学 会 了 组 合 故 事 ， 并 想 出 新 的 故事 。 然 而 ， 我 们 可 以 通过 引入 更 好 的 学 习 
模型 (例如 LSTM) 和 更 好 的 搜索 技术 (例如 集束 搜索 ) 来 进一步 改善 这 些 结果 ， 这 些 将 在 下 一 章 
中 介绍 。 


由 于 语言 的 复杂 性 和 RNN 较 小 的 表示 能 力 ， 在 整个 学 习 过 程 中 ,不 太 可 能 获得 与 本 文 所 
示 的 文本 一 样 良好 的 输出 。 因 此 ， 我 们 挑选 了 一 些 生成 的 文本 ， 以 表达 我 们 的 观点 。 


注意 ， 这 是 一 个 精心 挑选 的 文本 生成 示例 ， 仔 细 观 察 会 发 现 ， 随 着 时 间 的 推移 ， 如 果 继 续 多 次 
迭代 来 进行 预测 ，RNN 会 一 遍 又 一 遍地 重复 同一 块 文本 。 我 们 可 以 看 到 ， 这 在 前 面 的 文本 片段 中 
已 经 存在 ， 其 中 第 一 个 句子 与 最 后 一 个 句子 相同 。 随 着 数据 集 大 小 的 不 断 增加 ,我们 会 发 现 ， 这 个 
问题 会 变 得 更 加 突出 。 这 是 由 于 梯度 消失 问题 导致 我 们 的 RNN 的 记忆 能 力 不 足 引起 的 。 而 为 了 减 
少 这 种 影响 ， 在 6.9 和 6.10 节 中 ， 我 们 将 讨论 RNN 的 一 种 变 体 一 一 具有 上 下 文 特征 的 RNN 
CRNN-CF) ， 可 以 减少 这 种 影响 。 


6.8 困惑 度 一 一 文本 生成 结果 质量 的 度量 


在 信息 论 中 ， 困 惑 度 (Perplexity) 用 来 度量 一 个 概率 分 布 模型 或 概率 模型 预测 样本 的 好 坏 程 
JE, 也 可 以 用 来 比较 两 个 概率 分 布 或 概率 模型 。 低 困惑 度 的 概率 分 布 模型 或 概率 模型 能 更 好 地 预测 
样本 。 关 于 困惑 度 的 更 多 信息 ， 读 者 可 以 查看 维基 百科 给 出 的 解释 Chttps://en.wikipedia.org/wiki/ 
Perplexity) 。 
我 们 的 工作 不 仅仅 是 利用 模型 生成 新 的 文本 , 还 需要 利用 一 个 方法 来 衡量 生成 文本 的 质量 。 一 
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种 方法 是 测量 RNN 遇 到 给 定 输入 的 输出 会 产生 多 大 程度 的 困惑 程度 Perplexed， 或 者 惊讶 程度 
(Surprised) ) . tubi. IRA Ae CHOSEN Hy, RAE SORA ela. yp). WARRE 
将 是 : 


p(x, = el Cw 
使 用 这 个 方法 可 以 计算 大 小 为 N 的 训练 数据 集 的 平均 困惑 ， 具 体 如 下 : 
p (Derain) = C / )Xl-apGu y) 

在 图 6-14 中 ， 我 们 展示 了 训练 困惑 度 和 验证 困惑 度 随 时 间 的 变化 情况 。 我 们 可 以 看 到 ， 训 练 
难度 随 着 时 间 的 推移 而 稳步 下 降 ， 其 中 验证 困惑 度 则 呈 显 著 波动 状态 。 其 实 这 是 可 以 理解 的 ， 因 为 
在 验证 困惑 度 中 ， 本 质 上 评估 的 是 RNN 基于 我 们 对 训练 数据 的 学 习 来 预测 不 可 见 文 本 的 能 力 。 由 
于 语言 任务 很 难 建 模 ， 因 此 这 是 一 个 非常 困难 的 任务 ， 出 现 这 些 波 动 是 很 正常 的 事情 。 

训练 数据 的 困惑 度 验证 数据 的 困惑 度 


Ms 
pum * * i * 3 jm 
图 6-14 ”训练 数据 和 验证 数据 的 困惑 度 随时 间 变 化 的 示意 图 

这 里 有 一 种 改善 结果 的 方法 ， 就 是 向 RNN 增加 更 多 的 隐藏 层 ， 因 为 更 深层 次 的 模型 通常 可 以 
提供 更 好 的 结果 。 我 们 在 ch6 文件 夹 中 的 6 mn language bigram multilayeripynb 中 实现 了 一 个 三 
层 RNN， 读 者 可 以 自行 查看 。 

现在 我 们 来 看 一 个 问题 ， 是 否 有 更 好 的 RNN 的 变 体会 工作 得 更 好 呢 ? 例如， 有 没有 RNN 的 
变 体能 更 有 效 地 解决 梯度 消失 的 问题 ? 在 下 一 节 中 ， 我 们 来 讨论 一 个 称 为 RNN-CF 的 变 体 。 


6.9 具有 上 下 文 特征 的 循环 神经 网 络 
RNN-CF 


前 面 我 们 讨论 了 训练 简单 RNN 的 两 个 重要 挑战 : 梯度 爆炸 和 梯度 消失 。 我 们 知道 可 以 用 一 个 
简单 的 策略 来 防止 梯度 爆炸 ， 例 如 梯度 裁剪 ， 从 而 实现 更 稳定 的 训练 。 然 而 ， 对 于 梯度 消失 问题 而 
言 ， 还 需要 更 加 努力 地 去 做 ， 因 为 没有 简单 的 缩放 /裁剪 机 制 可 以 解决 梯度 消失 问题 ， 就 像 我 们 对 
梯度 爆炸 所 做 的 那样 。 因 此 ， 我 们 需要 修改 RNN 本 身 的 结构 ， 明 确 地 赋予 它 记 忆 数 据 序列 中 较 长 
模式 的 能 力 。Tomas Mikolov 等 人 于 2015 年 在 其 文章 《Learning Longer Memory in Recurrent Neural 
Networks) (International Conference on Learning Representations) 中 提出 了 RNN-CF， 是 标准 RNN 
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修改 后 的 一 种 模型 ， 能 够 帮助 RNN 更 长 时 间 地 记 住 数据 序列 中 较 长 的 模式 。 

RNN-CF 通过 引入 新 的 状态 和 一 组 新 的 前 向 和 循环 连接 来 减少 梯度 消失 。 换 言 之 , 与 仅 具 有 单 
个 状态 向 量 的 标准 RNN 相 比 ，RNN-CF 将 具有 两 个 状态 向 量 。 其 主要 思想 是 ， 一 个 状态 向 量变 化 
缓慢 ， 用 于 保留 较 长 的 记忆 ， 而 另 一 个 状态 向 量 可 以 快速 变化 ， 用 于 短期 记忆 工作 。 


6.9.1 RNN-CF 的 技术 说 明 


在 这 里 , 我 们 用 几 个 参数 来 调整 传统 的 RNN， 以 帮助 维持 更 长 时 间 的 记忆 。 除了 标准 RNN 模 
型 中 存在 的 常规 状态 向 量 之 外 ,这 些 调整 还 包括 引入 新 的 状态 向 量 。 因此 , 还 引入 了 几 个 前 向 和 循 
环 的 权重 值 集 。 在 抽象 层次 上 ， 图 6-15 给 出 了 RNN 与 RNN-CF 比较 的 示意 图 。 


G) G) 


6-15. RNN 5 RNN-CF 比较 的 示意 图 


从 图 6-15 中 可 以 看 到 ,与 传统 的 RNN 相 比 ,， RNN-CF 具有 一 些 额外 的 权重 值 。 现 在 让 我 们 仔 
细 看 看 这 些 图 层 和 权重 值 是 做 什么 的 。 
首先 ， 输 入 由 两 个 隐藏 层 接收 ， 就 像 在 RNN 中 发 现 的 传统 隐藏 层 一 样 。 我 们 已 经 看 到 ， 仅 使 
用 这 个 隐藏 层 在 保留 长 期 记忆 方面 效果 不 佳 。 但 是 , 我 们 可 以 通过 强制 循环 矩阵 接近 同一 性 并 消除 
非 线 性 来 强制 隐藏 层 更 长 时 间 地 保留 记忆 。 当 循环 矩阵 接近 同一 性 而 没有 非 线性 时 , 发 生 在 h 上 的 
任何 变化 都 应 该 始终 来 自 于 输入 的 变化 。 换 名 话说， 先前 的 状态 对 改变 当前 状态 的 影响 较 小 。 这 导 
致 状态 变化 慢 于 密集 的 权重 值 矩 阵 和 非 线性 。 因此， 这 种 状态 有 助 于 更 长 时 间 地 保留 记忆 。 支持 循 
环 和 矩阵 接近 1 的 另 一 个 原因 是 , 当权 重 值 接近 1 时 ,出 现在 推导 中 的 项 如 w@-3 将 不 会 消失 或 爆炸 。 
但 是 ， 如 果 我 们 仅 使 用 此 而 没有 非 线 性 的 隐藏 层 的 话 ， 梯 度 就 永远 不 会 减少 。 在 这 里 ， 对 于 梯度 减 
小 的 影响 ， 旧 的 输入 应 该 远 小 于 最 近 的 输入 。 然 后 ， 我 们 需要 通过 时 间 将 梯度 传播 到 输入 的 起 始 位 
置 ， 但 这 样 的 成 本 很 高 。 因 此 ， 为 了 充分 利用 这 两 个 方面 ， 我 们 保留 了 这 两 个 层 : 可 以 快速 变化 的 
标准 RNN IREE Che), 以 及 变化 更 慢 的 上 下 文 特征 层 (sr)。 这 个 新 层 称 为 上 下 文 层 (Context Layer), 
是 一 个 有 助 于 保持 长 期 记忆 的 层 。RNN-CF 的 更 新 规则 如 下 《〈 这 里 我 们 没有 看 到 sce-_D 被 一 个 单位 
矩阵 所 乘 ， 是 因为 se_b= Se) 。 
St = (1—a)Bx, + aso. 
hi = o(Ps, + Ax, + Rha.,) 
y, = softmax(Uh, + Vs,) 
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与 RNN-CF 相关 的 符号 总 结 在 表 6-2 中 。 


表 6-2 RNN-CF 相关 的 符号 列表 
具体 含义 


当前 的 输入 


当前 的 状态 向 量 


当前 的 输出 
当前 上 下 文 的 特征 向 量 


Xt 和 ht 之 间 的 权重 矩阵 


Xt 和 st 之 间 的 权重 矩阵 


hi 的 循环 连接 


控制 s(_) 对 st 影响 的 常量 
丸和 st 之 问 的 权重 矩阵 
有 和 yt 之 间 的 权重 逢 阵 
st 和 之 间 的 权重 矩阵 
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6.9.2 RNN-CF 的 实现 


前 面 我 们 已 经 讨论 了 RNN-CF 包含 的 额外 的 状态 向 量 以 及 它 如 何 帮 


们 将 讨论 RNN-CF 的 实现 。 除 了 传统 RNN 


功 防 止 梯度 消失 。 这 里 我 


实现 中 的 隐藏 层 Ch . Wyn ( 表 中 的 A) ~ Was CE 


中 的 R) 和 Way 〈 表 中 的 U) 之 外 ,现在 还 需要 另外 三 组 权重 值 ， 即 我 们 将 定义 B、P 和 V。 此 外 ， 
我 们 将 定义 一 个 新 变量 来 包含 s:(Hidden_Context， 不 包括 he o 


6.9.3 ”定义 RNN-CF 超 参数 


首先 我 们 将 定义 超 参 数 , 包括 之 前 定义 


9 超 参 数 和 新 参数 。 一 个 新 的 超 参数 定义 了 上 下 文 特征 


层 中 的 神经 元 数量 s*， 其 中 alpha KRSR 


hidden context = 64 
alpha = 0.9 


HHJ a. 


6.9.4 定义 输入 和 输出 占 位 符 


正如 我 们 对 标准 RNN 所 做 的 那样 ， 定 义 占 位 符 以 包含 训练 输入 和 输出 、 验 证 输入 和 输出 以 及 


测试 输入 : 


# 训练 数据 集 
train dataset, train labels = [] 


for ui in range (num unroll): 


| D 


train dataset.append(tf.placeholder (tf.float32, 


Shape-[batch size,in size], 
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name-'train dataset $d'$ui)) 
train labels.append(tf.placeholder (tf.float32, 
Shape-[batch size,out size], 


name-'train labels $d'$ui)) 


+ 验证 数据 集 
valid dataset = tf.placeholder (tf.float32, 
shape-[1,in size],name-'valid dataset') 
valid labels = tf.placeholder(tf.float32, 
shape-[1,out size],name-'valid labels') 

+ 测试 数据 集 

test dataset = tf.placeholder(tf.float32, 

shape=[test batch size,in size], 


name-'save test dataset') 


6.9.5 定义 RNN-CF 的 权重 值 


我 们 将 定义 RNN-CF 计算 所 需 的 权重 值 。 正 如 在 符号 表 中 看 到 的 那样 ， 这 里 RNN-CF 计算 需 
要 6 组 权重 值 (A、B、R、P、U 和 V) 。 而 在 传统 的 RNN 计算 中 ， 只 需要 三 组 权重 值 就 可 以 了 。 


+ 输入 层 和 隐藏 层 (h) 之 间 的 权重 值 

A = tf.Variable(tf.truncated normal([in size,hidden], 
stddev-0.02,dtype-tf.float32),name-'W xh') 

B - tf.Variable(tf.truncated normal([in size,hidden context], 
stddev-0.02,dtype-tf.float32),name-'W xs') 


=% 


隐藏 层 (h) 间 的 权重 值 
= tf.Variable(tf.truncated normal([hidden,hidden], 
stddev-0.02,dtype-tf.float32),name-'W hh') 
P - tf.Variable(tf.truncated normal([hidden context,hidden], 
stddev-0.02,dtype-tf.float32),name-'W ss') 


w 


= 


隐藏 层 (h) 和 输出 层 Cy). 之 间 的 权重 值 

= tf.Variable(tf.truncated normal([hidden,out size], 
stddev-0.02,dtype-tf.float32),name-'W hy') 

V = tf.Variable(tf.truncated normal([hidden context,out size],stddev-0.02, 

dtype-tf.float32), 


a 


name-'W sy') 
* 训练 数据 的 状态 变量 
prev train h = tf.Variable(tf.zeros([batch size,hidden],dtype-tf.float32), 


name-'train h',trainable-False) 


prev train s = tf.Variable(tf.zeros([batch size,hidden context], 
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dtype-tf.float32),name-'train s', 
trainable-False) 


+ 验证 数据 的 状态 变量 
prev valid h = tf.Variable(tf.zeros([1,hidden],dtype-tf.float32), 
name-'valid h',trainable-False) 
prev valid s = tf.Variable(tf.zeros([1,hidden context],dtype-tf.float32), 
name-'valid s',trainable-False) 
+ ”测试 数据 的 状态 变量 
prev test h = tf.Variable(tf.zeros([test batch size,hidden], 
dtype-tf.float32), 
name-'test h') 
prev test s = tf.Variable(tf.zeros([test batch size,hidden context], 
dtype-tf.float32),name-'test s') 


6.9.6 ”用 于 维护 隐藏 层 和 上 下 文 状 态 的 变量 和 操作 


我 们 将 定义 RNN-CF 的 状态 变量 。 除 了 传统 RNN 中 的 心 之 外 ， 我 们 还 需要 对 上 下 文 特征 有 一 
个 单独 的 状态 ， 即 set。 总 之 ， 我 们 将 有 6 个 状态 变量 。 其 中 ， 三 个 状态 变量 在 训练 、 验 证 和 测试 期 
间 维 持 状态 向 量 心 ， 而 另外 三 个 状态 变量 在 训练 、 验 证 和 测试 期 间 维持 状态 向 量 sr: 

# 训练 数据 的 状态 变量 

prev train h = tf.Variable(tf.zeros([batch size,hidden], 


dtype-tf.float32), 


name-'train h',trainable-False) 


prev train s = tf.Variable(tf.zeros([batch size,hidden context], 
dtype-tf.float32),name-'train s', 


trainable-False) 


# 验证 数据 的 状态 变量 
prev valid h = tf.Variable(tf.zeros([l,hidden],dtype-tf.float32), 
name-'valid h',trainable-False) 
prev valid s = tf.Variable(tf.zeros([1,hidden context], 
dtype-tf.float32), 
name-'valid s',trainable-False) 
# 测试 数据 的 状态 变量 
prev test h = tf.Variable(tf.zeros([test batch size,hidden], 
dtype-tf.float32), 
name-'test h') 
prev test s = tf.Variable(tf.zeros([test batch size,hidden context], 


dtype-tf.float32),nam 


"test s') 


接 下 来 ， 我 们 定义 所 需 的 


置 操作 ， 以 重 置 状态 : 
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reset prev train h op tf.assign(prev train h,tf.zeros([batch size, 
hidden], dtype-tf.float32)) 
reset prev train s op - tf.assign(prev train s,tf.zeros([batch size, 


hidden context],dtype-tf.float32)) 


reset valid h op = tf.assign(prev valid h,tf.zeros([1,hidden], 
dtype-tf.float32)) 
reset valid s op = tf.assign(prev valid s,tf.zeros([1,hidden context], 
dtype-tf.float32)) 
# 加 入 噪声 来 估算 测试 状态 
reset test h op = tf.assign(prev test h,tf.truncated normal( 
[test batch size,hidden], 
stddev-0.01, 
dtype-tf.float32)) 
reset test s op - tf.assign(prev test s,tf.truncated normal( 
[test batch size,hidden context], 
stddev-0.01,dtype-tf.float32)) 


6.9.7 计算 输出 


在 定义 了 所 有 输入 、 变 量 和 状态 向 量 之 后 ， 现 在 根据 前 面 提 到 的 方程 式 来 计算 RNN-CF 的 输 
出 。 首 先 ， 将 状态 向 量 初始 化 为 零 。 其 次 ， 将 针对 一 组 固定 的 时 间 步 长 (根据 BPTT 的 需要 ) 展开 
我 们 的 输入 ， 并 分 别 计算 每 个 展开 步 又 的 非 标准 化 输出 (有 时 称 为 logits 或 得 分 ) 。 接 着 ， 将 连接 
属于 每 个 展开 时 间 步 长 的 所 有 y 值 ,最 后 计算 所 有 这 些 项 的 平均 损失 ,并 将 其 与 真实 标签 进行 比较 : 


+ 训练 得 分 ( 非 标准 化 ) 值 和 预测 标准化》 


y Scores, y predictions = [],[] 


# 这 些 将 在 num unroll 计算 步骤 中 迭代 使 用 
next h state = prev train h 
next s state = prev train s 


# {E num unroll 步 数 中 为 每 个 步 长 添加 计算 的 RNN 输出 


next h states unrolled, next s states unrolled = [],[] 


# 为 num_unrol1 步 数 计算 RNN 的 输出 (根据 截断 的 BPTT 的 要 求 ) 
for ui in range (num unroll): 
next h state = tf.nn.tanh( 
tf.matmul(tf.concat([train dataset[ui],prev train h, 
prev train s],1), 
tf.concat([A,R,P],0)) 
) 
next s state = (l-alpha)*tf.matmul(train dataset[ui],B) + 
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alpha * next s state 
next h states unrolled.append (next h state) 


next s states unrolled.append(next s state) 


# num unroll 步 生成 的 所 有 RNN 输出 的 分 数 和 预测 
y Scores = [tf.matmul(next h states unrolled[ui],U) + 
tf.matmul(next s states unrolled[ui],V) 
for ui in range (num unroll)] 
y predictions = [tf.nn.softmax(y scores[ui]) for ui in range (num 


unroll)] 


6.9.8 计算 损失 


本 节 定义 有 关 RNN-CF 的 损失 的 计算 。 此 操作 与 之 前 我 们 为 标准 RNN 定义 的 操作 相同 ， 如 下 
所 示 : 
# 确保 在 计算 损失 之 前 ， 使 用 我 们 获得 的 最 后 一 个 RNN 的 输出 状态 来 更 新 状态 变量 


with tf.control dependencies([tf.assign(prev train s, next s state), 
tf.assign(prev train h,next h state)]): 
rnn loss - tf.reduce mean( 
tf.nn.softmax cross entropy with logits v2( 
logits-tf.concat(y scores,0), 
labels-tf.concat(train labels,0) )) 


6.9.9 计算 验证 输出 


与 在 训练 时 计算 的 输出 类 似 ,我 们 这 里 计算 验证 输入 的 输出 。 但是， 我们 不 会 像 处 理 训练 数据 
那样 展开 输入 ， 因 为 在 预测 期 间 不 需要 展开 : 


# 验证 数据 相关 的 推理 逻辑 (非常 类 似 训练 推理 逻辑 ) 
# 计算 下 一 个 验证 状态 ( 仅 1 步 ) 
next valid s state = (l-alpha) * tf.matmul (valid dataset,B) + 
alpha * prev valid s 
next valid h state = tf.nn.tanh(tf.matmul(valid dataset,A) + 
tf.matmul(prev valid s, P) + 
tf.matmul(prev valid h,R)) 


HER RNN 的 状态 输出 计算 预测 
# 但 在 此 之 前 ， 将 RNN 的 最 新 状态 输出 分 配给 验证 阶段 的 状态 变量 
* 因此 ， 需 要 确保 执行 rnn_valid_loss 操作 以 更 新 验证 状态 


with tf.control dependencies([tf.assign(prev valid s, next valid s state), 


tf.assign(prev valid h,next valid h state)]): 
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valid scores = tf.matmul(prev valid h, U) + tf.matmul(prev valid s, V) 


valid predictions = tf.nn.softmax(valid scores) 


6.9.10 “计算 测试 输出 


我 们 现在 可 以 定义 输出 计算 以 生成 新 的 测试 数据 : 


# 测试 数据 相关 的 推理 逻辑 


# 计 算 测试 数据 的 隐藏 输出 
(1l-alpha)*tf.matmul (test dataset,B)+ alpha*prev test s 


next test s = 


next test h = tf.nn.tanh( 
tf.matmul(test dataset,A) + tf.matmul(prev test s,P) + 


tf.matmul(prev test h, R) ) 
# 确保 每 次 进行 预测 时 都 已 更 新 了 测试 阶段 的 隐藏 状态 
with tf.control dependencies([tf.assign(prev test s,next test s), 
tf.assign(prev test h,next test h)]): 


test prediction - tf.nn.softmax( 
tf.matmul(prev test h,U) + tf.matmul(prev test s,V) 


6.9.14. 计算 梯度 和 优化 
下 面 使 用 优化 器 来 最 小 化 损失 ， 这 与 之 前 对 于 传统 RNN 所 做 的 方法 相同 : 


rnn optimizer = tf.train.AdamOptimizer(learning rate-.001) 
gradients, v = zip(*rnn optimizer.compute gradients (rnn loss)) 
= tf.clip by global norm(gradients, 5.0) 


gradients,  - 
rnn optimizer = rnn optimizer.apply gradients (zip (gradients, v)) 


6.10 使 用 RNN-CF 生成 的 文本 


这 里 我 们 将 对 RNN 和 RNN-CF 生成 的 文本 进行 定性 和 定量 的 比较 。 首 先 比较 使 用 20 个 训练 
文档 获得 的 结果 。 之 后 将 训练 文档 的 数量 提高 到 100， 以 查看 RNN 和 RNN-CF 是 否 能 够 合并 大 量 
数据 ， 以 便 输出 质量 更 好 的 文本 。 

首先 ， 对 于 使 用 20 个 训练 文档 ，RNN-CF 生成 的 文本 如 下 : 


the king's daughter, who had 
no more excuses left to make. they cut the could not off, and her his 
first rays of life in the garden, 


and was amazed to see with the showed to the grown mighted and the 


H 
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seart the answer to star's brothers, and seeking the golden apple, we 
flew over the tree to the seadow where her 


heard that he could not have discome. 


emptied him by him. she himself 'well i ston the fire struck it was 
and said the youth, farm of them into the showed to shudder, but here 
and said the fire himself 'if i could but the youth, and thought that 
is that shudder."' 

'then, said he said 'i will by you are you, you.' then the king, who 
you are your 

wedding-mantle. you are you are you 

bird in wretch me. ah. what man caller streep them if i will bed. 

the youth 

begged for a hearing, and said 'if you will below in you to be your 
wedding-mantle.' 'what.' said he, 'i shall said 'if i hall by you are you 
bidden it i could not have 


就 文本 的 质量 而 言 ， 与 标准 的 RNN 相 比 ， 我 们 看 不 到 太 大 的 差别 。 至 于 为 什么 RNN-CF 没有 
标准 RNN 表现 得 更 好 , Mikolov 等 人 在 他 们 的 论文 《Learning Longer Memory in Recurrent Neural 


Network) HÈR): “ 当 标 准 隐藏 单元 的 数量 足以 捕获 短期 模式 时 ， 学 习 自 循环 权重 值 似乎 就 不 再 


重要 了 ”。 


因此 ， 如 果 隐 藏 单元 的 数量 足够 大 ，RNN-CF 与 标准 RNN 相 比 就 没有 明显 的 优势 。 这 可 能 就 


是 我 们 观察 到 这 一 点 的 原因 所 在 。 在 代码 中 ， 我 们 只 使 用 了 64 个 隐藏 的 神经 元 和 一 个 相对 较 小 的 


语料库 ， 它 足以 表示 一 个 故事 ， 达 到 RNN 所 能 达到 的 水 平 。 


我 们 再 来 看 看 增加 数据 量 是 否 真 的 有 助 于 RNN-CF 执行 得 更 好 。 对 于 这 里 的 示例 ， 在 训练 了 


XA 50 个 epoch 之 后 ， 我 们 将 把 文档 数量 增加 到 100 个 。 


以 下 是 标准 RNN 的 输出 : 


they were their dearest and she she told him to stop crying to the 
king's son they were their dearest and she she told him to stop crying 
to the king's son they were their dearest and she she told him to stop 
crying to the king's son they were their dearest and she she told him 
to stop crying to the king's son they were their dearest and she she 


told him to stop 


我 们 可 以 看 到 ， 与 使 用 较 少 数据 时 的 表现 相 比 ，RNN EENT. HGRICKRUBUU AE RUT E 


对 标准 RNN 有 不 利 影响 ， 导 致 它们 输出 低 质量 的 文本 。 


以 下 是 RNN-CF 的 输出 。 我 们 可 以 看 到 ， 就 变化 而 言 ，RNN-CF 比 标 准 RNN 做 得 好 得 多 : 


then they could be the world. not was now from the first for a set 
out of his pocket, what is the world. then they were all they were 
forest, and the never yet not rething, and took the 


children in themselver to peard, and then the first her. then the was 
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in the first, and that he was to the first, and that he was to the 

kitchen, and said, and had took the 

children in the mountain, and they were hansel of the fire, gretel of 

they were all the fire, goggle-eyes and all in the moster. when she 

had took the changeling the little elves, and now ran into them, and she bridge 
away with the witch form, 

and their father's daughter was that had neep himselver in the horse, 

and now they lived them himselver to them, and they were am the 

marriage was all they were and all of the marriage was anger of the 

forest, and the manikin was laughing, who had said they had not know, 

and took the children in themselver to themselver and they lived them himselver 
to them 


因此 ， 当 数据 充足 时 ，RNN-CF 模型 实际 上 优 于 标准 RNN 模型 。 我 们 将 为 这 两 个 模型 绘制 随 
时 间 变 化 的 训练 和 验证 的 困惑 度 。 正 如 我 们 所 看 到 的 ， 在 训练 困惑 度 方面 ，RNN-CF 和 标准 RNN 
没有 显著 差异 。 最 后 ， 在 验证 困惑 度 图 (参见 图 6-16) 中 可 以 看 到 ， 与 标准 RNN 相 比 ，RNN-CF 
显示 了 更 少 的 波动 。 
训练 数据 的 困惑 度 验证 数据 的 困惑 度 


i ---- RNN ---- RNN 
i 一 一 RNN-CF . 
i 
i 


“Epoch E ] Epoch 
图 6-16 RNN, RNN-CF 的 训练 数据 困惑 度 和 验证 数据 困惑 度 示意 图 


在 这 里 可 以 得 出 一 个 重要 的 结论 , 当 数 据 量 较 小 时 , 标准 RNN 可 能 是 过 拟 合 数据 。 也 就 是 说 ， 
RNN 可 能 按 原样 记忆 数据 , 而 不 是 试图 学 习 数 据 中 存在 的 更 常见 的 模式 。 当 RNN 被 大 量 数据 淹没 
并 且 被 训练 更 长 时 间 〈 比 如 大 约 训 练 50 遍 ， 即 50 个 epoch) 时， 这 种 弱点 变 得 更 加 突出 。 产 生 的 
文本 质量 下 降 ， 验 证 困惑 度 的 波动 也 比较 大 。 而 RNN-CF 对 小 量 数据 和 大 量 数 据 均 表 现 出 一 定 的 
一 致 性 。 


6.11 总 结 


在 本 章 中 ， 我 们 首先 通过 计算 图 及 其 展开 知道 了 每 个 节点 表示 在 某 个 时 刻 t 的 状态 ， 函 数 f 
可 以 将 t 处 的 状态 映射 到 t + 1 处 的 状态 ， 而 在 有 外 部 信号 x 驱动 的 情况 下 ， 涉 及 循环 的 任何 函 
数 本 质 上 可 以 被 认为 是 一 种 循环 神经 网 络 ， 其 中 循环 神经 网 络 隐藏 单元 的 值 可 以 被 定义 通过 式 
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(6.2) ) ， 而 且 我 们 对 于 展开 图 和 循环 图 做 了 细 分 层面 的 解读 。 

其 次 ， 对 于 RNN 的 解读 部 分 ， 我 们 详细 介绍 了 序列 数据 模型 和 数学 层面 的 内 容 ， 通 过 相关 公 
式 和 图 示 对 于 RNN 的 内 在 机 制 逐 步 进行 了 展开 和 剖析 ， 并 在 数学 层面 进行 了 详细 解读 。 

接着 ， 我 们 介绍 了 通过 时 间 的 反 向 传播 算法 (BPTT) 。 在 这 部 分 ， 我 们 认识 了 反 向 传播 的 工 
作 原 理 、 为 什么 不 能 对 RNN 使 用 标准 反 向 传播 、 如 何 使 用 BPTT 对 数据 进行 RNN 训练 、 截 断 BPTT 
和 了 BPTT 的 局 限 性 等 , 解读 了 其 局 限 性 中 的 常见 问题 : 梯度 下 降 和 梯度 爆炸 ， 并 给 出 了 与 之 对 应 的 
解决 方法 。 

然后 , 我 们 继续 研究 RNN 的 实际 应 用 , 讨论 了 4 种 主要 类 型 的 RNN。 一 对 一 结构 用 于 诸如 文 
本 生成 、 场 景 分 类 和 视频 帧 标记 之 类 的 任务 。 多 对 一 结构 用 于 情感 分 析 ， 逐 字 处 理 句 子 /短语 (与 
单一 处 理 完 整 句子 相 比 ) 。 一 对 多 结构 在 图 像 字幕 任务 中 很 常见 ， 将 单个 图 像 映射 到 描述 图 像 的 任 
意 长 句子 短语 。 利 用 多 对 多 结构 进行 机 器 翻译 任务 。 

接 下 来 ， 我 们 介绍 了 一 个 有 趣 的 RNN 应 用 一 一 文本 生成 。 我 们 使 用 童话 语料库 来 训练 RNN， 
特别 是 将 故事 中 的 文本 打破 为 bigrams〈 一 个 二 元 组 包含 两 个 字符 ) 。 我 们 通过 给 出 一 组 从 故事 中 
选择 的 二 元 组 作为 输入 和 随后 的 双 字母 〈 来 自 输入 ) 作为 输出 来 训练 RNN。 然 后 通过 最 大 化 正确 
预测 下 一 个 二 元 组 的 准确 性 来 优化 RNN。 按 照 这 个 程序 ,我 们 要 求 RNN 生成 一 个 不 同 的 故事 ， 对 
生成 的 结果 做 了 两 个 重要 的 观察 : 


e ”实际 上 ， 随 着 时 间 的 推移 ， 展 开 输 入 有 助 于 更 长 时 间 地 保持 记忆 。 
© PRIF, RNN 也 只 能 存储 有 限 数量 的 长 期 记忆 。 


因此 ,我们 研究 了 一 种 能 够 捕获 更 长 记忆 的 RNN 变 体 ， 被 称 为 RNN-CF。 RNN-CF 具有 两 个 
不 同 的 层 : 隐藏 层 (在 简单 RNN 中 找到 的 传统 隐藏 层 ) 和 上 下 文 层 (用 于 持久 记忆 、 长 期 记忆 ) 。 
我 们 看 到 ， 当 与 小 数据 集 一 起 使 用 时 ， 使 用 这 个 额外 的 上 下 文 层 并 没有 明显 的 帮助 ， 因 为 在 RNN 
中 有 一 个 相当 复杂 的 隐藏 层 ， 但 是 当 使 用 更 多 数据 时 ， 它 产生 了 稍 好 的 结果 。 

在 下 一 章 中 ， 我 们 将 讨论 一 种 更 强大 的 RNN 模型 ， 被 称 为 长 短期 记忆 CLSTMO 网 络 ， 可 进 
一 步 减 少 梯度 消失 的 不 利 影响 ， 从 而 产生 更 好 的 结果 。 


长 短期 记忆 


在 上 一 章 中 ， 我 们 介绍 了 循环 神经 网 络 ， 了 解 到 在 训练 RNN 时 可 能 会 遇 到 梯度 不 稳定 〈 消 失 
和 爆炸 ) 的 问题 ， 导 致 我 们 的 神经 网 络 学 到 的 东西 不 符合 预期 要 求 。 然 而 幸运 的 是 ,我们 可 以 引入 
一 个 称 为 长 短期 记忆 (Long Short-Term Memory，LSTM) 的 块 (Block， 也 称 为 Cell， 即 “细胞 ”) 
进入 RNN 中 ,LSTM H Sepp Hochreiter 和 JürgenSchmidhuber 于 1997 年 提出 ,并 于 2000 年 由 Felix 
Gers 的 团队 进行 了 改进 ， 它 属于 RNN 的 一 种 改进 类 型 ， 非 常 适合 处 理 时 间 序 列 数据 。 这 种 类 型 的 
神经 网 络 最 近 在 深度 学 习 的 背景 下 被 重新 发 现 , 因为 它 没有 梯度 消失 的 问题 , 并 提供 了 出 色 的 结果 
和 性 能 。 基 于 LSTM 的 网 络 是 时 间 序 列 预测 和 分 类 的 理想 选择 ， 并 且 正 在 取代 许多 传统 的 深度 学 
习 方 法 。 

由 于 梯度 消失 会 阻止 模型 学 习 的 长 期 依赖 性 , 而 在 时 间 序 列 中 的 重要 事件 之 问 可 能 存在 未 知 持 
续 时 间 的 滞后 , 面 对 这 种 困境 , 我 们 对 LSTM 进行 了 精心 设计 , 能 够 避免 之 前 的 梯度 不 稳定 问题 ， 
使 得 LSTM 能 够 存储 比 普通 RNN 更 长 的 记忆 〈 数 百 个 时 间 步 长 》。 在 模型 训练 中 ，RNN 仅 保持 
单个 隐藏 状态 ， 而 LSTM 具有 更 多 的 参数 ， 可 以 做 到 该 存储 的 存储 、 该 丢弃 的 丢弃 ， 而 RNN 却 无 
法 决定 存储 哪些 信息 以 及 丢弃 哪些 信息 , 因为 在 每 个 训练 步骤 中 都 强制 要 更 新 隐藏 状态 。 对 于 间 阶 
长 度 的 相对 不 敏感 性 是 LSTM 相对 于 RNN、 隐 马尔 可 夫 模型 和 其 他 序列 学 习 模型 在 许多 应 用 中 的 
优势 所 在 ， 这 种 优势 尤其 在 海量 数据 样本 的 可 用 性 上 已 经 得 到 很 好 的 验证 , 在 许多 序列 任务 (例如 
语言 建 模 、 股 票 预测 、 机 器 翻译 等 ) 上 都 有 优异 的 表现 。 

本 章 中 将 首先 介绍 LSTM 对 长 期 依赖 性 如 何 进 行 存储 〈 或 称 为 记忆 ) 。 其 次 ， 对 于 LSTM 的 
数学 基础 框架 进行 解读 ， 并 用 一 个 小 示例 加 以 细 化 解释 。 然 后 介绍 专门 为 改进 标准 LSTM 产生 预 
测 而 引入 的 几 种 技术 ， 还 将 介绍 双向 LSTM 模型 。 最 后 讨论 LSTM 的 两 个 著名 变 体 : Peephole 连 
接 和 门 控 循 环 单元 CGRUD 。 
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7.1 LSTM 简 述 


LSTM 本 质 上 是 一 种 更 高 级 的 RNN， 可 以 学 习 长 期 依赖 信息 ， 在 解决 很 多 问题 上 都 表现 了 优 
异 的 性 能 ， 这 与 它 的 内 部 结构 有 很 大 的 关系 ， 其 整体 结构 图 如 图 7-1 所 示 。 


block output Rd K Legend 


LSTM block - 4 ——— unweighted connection 
= weighted connection 
ep connection with time-lag 
@ branching point 

© muiplication 


由 sum over all inputs 
gate activation function 
(always sigmoid) 
input activation function 
(usually tanh) 
output activation function 
(usually tanh) 


图 7-1 LSTM 整体 结构 


由 图 7-1 可 知 ，LSTM 的 整体 结构 如 下 : 
OD 5 个 主要 构件 ， 分 别 如 下 。 


细胞 状态 Cell State) : LSTM 细胞 的 内 部 状态 〈 记 忆 ) o 

加 隐藏 状态 (Hidden State) : 用 于 计算 预测 的 外 部 隐藏 状态 。 

GST] (Input Gate) : 决定 了 当前 输入 被 读 入 细胞 状态 的 程度 。 

GD ESI] (Forget Gate) : 确定 了 将 先前 的 细胞 状态 发 送 到 当前 细胞 状态 的 程度 。 
回答 出门 (Output Gate) : 决定 了 将 多 少 细胞 状态 输出 到 隐藏 状态 。 


(2) 特殊 的 神经 元 结构 ,包含 4 个 Input (3 个 Gate 控制 信号 以 及 输入 数据 ) 和 1 个 Output. 

G) 激活 函数 通常 选用 Sigmoid 函数 GENY Logistic 函数 ) ， 个 别 使 用 tanh 函数 。Sigmoid 
激活 函数 用 于 将 输出 压缩 到 0 和 1 之 间 ， 用 于 表示 Gate 的 打开 程度 。 

为 了 方便 介绍 LSTM 的 细胞 架构 ， 这 里 给 出 LSTM 中 数据 流 的 抽象 图 ， 如 图 7-2 所 示 。 
正如 图 7-2 中 所 示 ， 细 胞 将 输出 某 个 状态 ， 该 状态 依赖 于 (具有 非 线性 激活 函数 ) 之 前 的 状态 和 当 
前 的 输入 。 但 是 ， 在 RNN 中 ， 细 胞 状态 总 是 随 着 接 下 来 的 每 个 输入 而 变动 的 ， 这 种 现象 的 存在 对 
于 存储 长 期 依赖 性 是 非常 不 利 的 。 

这 里 需要 强调 的 是 , LSTM 可 以 决定 何 时 替换 、 更 新 或 遗忘 存储 在 细胞 状态 中 的 每 个 神经 元 内 
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的 信息 。 换 名 话说， 如 果 有 需要 的 话 ，LSTM 本 身 其 实 存在 一 种 机 制 ( 其 实 就 是 门 控 机 制 ) 来 保持 
细胞 状态 不 变 ， 使 它们 能 够 存储 长 期 依赖 性 一 一 即 保持 长 期 记忆 。 

LSTM 拥有 细胞 需要 执行 每 个 操作 的 各 类 门 (Gate) ， 而 这 些 门 的 打开 程度 在 0 和 1 之 间 Gi 
常 是 Sigmoid 函数 ) 是 连续 的 ， 其 中 0 表示 该 门 处 于 闭合 状态 ， 没 有 信息 流 可 以 通过 该 门 ，1 表示 
该 门 处 于 打开 状态 ， 所 有 信息 都 可 以 通过 该 门 。LSTM 的 这 些 功 能 体现 在 图 7-2 中 。 每 个 门 决定 各 
种 数据 〈 例 如 当前 输入 状态 、 先 前 隐藏 状态 或 先前 的 细胞 状态 ) 有 多 少 流 入 状态 〈 最 终 隐 藏 状态 或 
细胞 状态 )， 每 条 线 的 粗细 表示 从 该 门 流出 的 信息 量 大 小 。 例如 ,输入 门 相 比 于 先前 最 终 隐藏 状态 
更 喜欢 允许 更 多 的 当前 输入 通过 , 而 遗忘 门 则 更 喜欢 让 更 多 的 先前 最 终 隐藏 状态 而 不 是 当前 输入 通 


n Current 
Cell State 


i Previous 
1 Cell State 


图 7-2 LSTM 细胞 中 数据 流 的 抽象 图 


7.2 LSTM 工作 原理 详解 


本 节 介 绍 LSTM 运作 的 基本 原理 。 由 7.1 节 我 们 知道 ,， LSTM 网 络 由 彼此 连接 的 细胞 组 成 ， 且 
每 个 LSTM 细胞 包含 三 种 类 型 的 门 : 输入 门 、 遗 忘 门 和 输出 门 ， 它 们 分 别 实现 对 细胞 存储 器 的 写 
入 、 复 位 (或 称 为 重 置 ) 和 读 取 功能 。 这 些 门 不 是 二 进 制 的 ， 而 是 模拟 的 (通常 由 映射 在 [0,1] 范 围 
内 的 Sigmoid 激活 函数 管理 , 其 中 0 表示 总 抑制 , 1 表示 总 激活 ) 。 LSTM 细胞 管理 两 个 状态 向 量 : 
细胞 状态 和 隐藏 状 态 ， 出 于 性 能 原因 ， 它们 默认 保持 独立 。 当然, 在 具体 操作 中 也 可 以 通过 在 创建 
BasicLSTMCell 时 设置 state is tuple = False 来 更 改 此 默认 行为 。 图 7-3 提供 了 具有 单个 状态 单元 的 
LSTM 细胞 块 的 图 示 。LSTM 网 络 的 形成 与 简单 的 RNN 是 一 致 的 ， 只 是 隐藏 层 中 的 非 线 性 单元 被 
存储 器 块 苦 换 。 此 外 ， 与 其 他 RNN 一 样 ， 隐 藏 层 可 以 附加 到 任何 类 型 的 可 微分 输出 层 ， 具 体 取决 
于 所 需 的 任务 〈 回 归 、 分 类 等 ) 。 
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NET OUTPUT 


OUTPUT GATE 


b 


N 
FORGET GATE N 


INPUT GATE 


NET INPUT 


图 7-3 具有 一 个 状态 单元 的 LSTM 细胞 块 图 示 


在 图 7-3 中 ， 通 过 设 定 权重 值 为 固定 〈1.0) 以 重复 连接 来 维持 内 部 细胞 状态 。 三 个 门 从 块 的 
内 部 和 外 部 收集 激活 情况 ， 并 通过 乘法 单元 (小 圆圈 ) 控制 细胞 状态 。 输 入 门 和 输出 门 控制 细胞 数 
据 流 的 输入 和 输出 程度 ， 而 遗忘 门 控制 内 部 细胞 状态 。 细 胞 输入 和 输出 激活 函数 〈g 和 h) 应 用 于 
指定 位 置 。 实 际 上 ， 多 数 情况 下 该 自 循环 的 权重 值 会 视 上 下 文 情 况 而 产生 变动 。 

设想 一 下 , 日 常生 活 中 可 拆 装 的 汽车 玩具 , 在 组 装 汽车 的 过 程 中 , 每 个 时 间 步 又 中 都 会 面临 以 
下 状况 : 

(1) 手头 有 的 汽车 部 件 。 

(2) 回忆 或 询问 旁人 汽车 组 装 好 后 完整 的 结构 图 样 。 

G) 汇集 CD 和 (2) 中 的 信息 ， 决 定 将 当前 的 部 件 组 装 到 哪个 位 置 。 


这 种 生活 中 遇 到 的 场景 与 我 们 的 LSTM 的 工作 原理 其 实 很 相似 ， 比 如 C. 中 你 拥有 的 汽车 部 
件 就 是 当前 的 外 部 输入 xe; (DD 中 其 实 就 是 调 入 之 前 的 记忆 /信息 ; (3) 中 就 是 汇集 外 部 输入 和 xx 
之 前 的 记忆 来 决定 输出 的 结果 (y.》。 下 面 我 们 通过 一 个 具体 的 例子 对 LSTM 内 在 逻辑 进行 解读 。 
首先 ， 假 设 这 里 有 一 个 句子 : 


John gave Mary a puppy. 


我 们 输出 的 内 容 应 该 是 John、Mary 和 puppy。 这 时 假设 LSTM 在 上 面 给 定 的 句子 后 需要 输出 
两 个 句子 : 


John gave Mary a puppy. 


那么 后 面 的 两 个 句子 可 能 是 : 


It barks very loudly. They named it Luna. 
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虽然 我 们 的 LSTM 模型 还 远 未 输出 诸如 此 类 的 实际 短语 ， 但 是 可 以 学 习 这 些 名 词 和 代词 之 间 
的 关系 。 例 如 ,It 与 puppy 有 关 ，They 与 John 和 Mary 有 关 。 然 后 ，It 应 该 学 习 名 词 /代词 和 动 
词 之 间 的 关系 。 例 如 ， 对 于 Ht， 动词 最 后 应 该 有 一 个 s。 对 于 这 些 情况 ， 我 们 结合 例句 给 出 了 这 些 
单词 间 的 依赖 关系 ， 如 图 7-4 所 示 。 我 们 看 到 短语 中 的 长 期 记忆 【例如 Luna 一 puppy) 和 短期 记忆 
(例如 Tt barks) 的 依赖 关系 ， 实 线 箭头 代表 名 词 和 代词 之 间 的 联系 ， 虚 线 箭头 显示 了 名 词 /代词 
和 动词 之 间 的 联系 。 


John gave Mary a E 


It barks very loudly. 
$4 


They named it Luna. 


图 7-4 例句 中 各 单词 之 间 的 各 种 关系 图 
接 下 来 ， 我 们 将 通过 这 些 内 部 具体 操作 来 建立 单词 间 的 各 种 关系 ， 以 便 输出 合理 的 句子 文本 。 


7.21 梯度 信息 如 何 无 损失 传递 


如 何 让 梯度 随 着 时 间 的 流动 不 发 生 指数 级 消失 或 者 爆炸 ， 这 是 摆 在 我 们 面前 的 一 个 重要 问题 。 
数学 上 ,无 论 对 1 做 多 少 次 方 的 运算 结果 还 是 1 ,如 果 我 们 得 到 的 梯度 恒 为 1 ,貌似 问题 就 解决 了 。 
这 时 ， 我 们 就 可 以 对 长 时 记忆 细胞 c 的 数学 模型 进行 设计 ， 大 概 样子 如 下 : 

Ct = C(t-1) 


这 时 ,误差 反 向 传播 时 的 导数 就 是 恒定 的 ( 即 为 1 ) ,误差 可 以 一 路 无 损耗 地 向 前 传播 直到 网 
络 起 始 端 。 也 就 是 说 ， 我 们 可 以 学 习 到 神经 网 络 前 端 与 末端 的 依赖 性 。 
就 像 汽车 运输 一 样 ， 运 输 路 线 畅 通 了 。 接 下 来 我 们 对 数据 的 装载 和 卸载 进行 处 理 。 


7.22 将 信息 装载 入 长 时 记忆 细胞 


由 前 面 得 知 , 输入 门 记 将 当前 输入 x 和 前 一 个 最 终 隐藏 状态 hce_y) 作 为 输入 并 计算 ie， 具体 如 下 : 


it = o(Wax)Xt + Wünhq-1) + bi) (7:35 
这 里 g(x) = qucm. 
输入 门 可 以 理解 为 在 具有 Sigmoid 激活 函数 的 单 隐藏 层 〈 标 准 RNN 上 的 隐藏 层 ) 处 执行 的 计 
算 。 标 准 RNN 的 隐藏 层 状态 心计 算 公式 如 下 : 


he = tanh(Ux, + Whee_»)) (02) 
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我 们 发 现 除了 激活 函数 不 同和 增加 偏差 之 外 ，LSTM 中 的 输入 门 记 和 标准 RNN 的 隐藏 状态 有 在 
计算 上 很 相似 。 由 上 面 的 内 容 我 们 得 知 ， 对 于 输入 门 记 计算 的 结果 ， 如 果 值 为 1， 就 意味 着 当前 输入 
的 所 有 信息 将 被 传递 到 细胞 状态 ， 如 果 值 为 0， 就 意味 着 当前 输入 的 信息 均 不 能 被 传递 到 细胞 状态 。 

接 下 来 ， 我 们 要 给 出 由 tah 层 创建 的 一 个 候选 项 向 量 ， 记 为 Gt.， 该 向 量 将 会 被 添加 以 便 稍 后 
能 够 计算 当前 细胞 状态 。 

& = tanh(Wijxi + Weemhee_1) + be) (73) 

至 此 ， 涉 及 的 计算 都 可 以 在 图 7-5 中 看 到 。 


e Xx —(&) 


igmoid || sigmoid 
4 


[ web 


图 7-5 LSTM 中 涉及 的 所 有 计算 (灰色 显示 ) ， 其 中 的 计算 tr 和 人 以 黑色 显示 
而 在 示例 中 , 在 学 习 的 最 初 阶段 , 输入 门 需要 高 度 激活 。 LSTM 输出 的 第 一 个 词 就 是 ito 为 此 ， 
LSTM 必须 知道 puppy 也 被 称 为 t。 假 设 LSTM 由 5 个 神经 元 来 存储 状态 。 我 们 希望 LSTM 存储 
让 所 指 的 是 puppy 信息 ， 也 希望 LSTM 学 习 的 男 一 条 信息 (在 不 同 的 神经 元 中 ) 是 当 使 用 的 主语 是 
让 时 ， 其 对 应 动词 的 时 态 应 该 在 词 末 尾 有 一 个 s。 LSTM 需要 知道 的 另 一 件 事 是 小 狗 (puppy) 可 
以 大 声 (loudly) HR Cbarks) . 图 7-6 说 明了 LSTM 如 何在 其 细胞 状态 中 对 这 些 信息 进行 编码 处 理 ， 
每 个 圆圈 代表 细胞 状态 的 单个 神经 元 隐藏 单元 〉。 


It -> Puppy Current Verb for 


barks-»loudly 
subject (i.e. current 
"it") subject (i.e. 
"barks") 


图 7-6 该 细胞 状态 对 这 些 信息 进行 编码 并 输出 第 一 个 句子 的 信息 
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同时 我 们 输出 第 一 个 新 句子 ， 如 下 : 


John gave Mary a puppy. It barks very loudly. 


7.2.8 更 新 细胞 状态 可 能 产生 的 问题 及 解决 方案 


目前 例子 中 的 样本 信息 量 很 小 ,对 于 输入 门 影响 不 大 , 但 现实 中 样本 数据 量 都 很 大 ， 如 果 输 入 
状态 处 于 打开 状态 ， 试 图 记 住所 有 的 信息 会 产生 不 利 的 结果 : 状态 c 的 值 会 变 得 很 大 。 因 为 神经 网 
络 在 输出 时 需要 把 c 激活， 而 当 e 变 得 非常 大 时 ， 像 sigmoid、tanh 这 些 常见 的 激活 函数 的 输出 就 
会 完全 饱和 ， 比 如 图 7-7 给 出 的 tanh 激活 函数 。 


1.0 


图 7-7 tanh 激活 函数 
TA c 的 容量 巨大 时 ，tanh 曲线 趋 近 于 1， 这 时 c 再 增加 也 没有 什么 意义 ， 因 为 已 经 处 于 饱和 状 
态 ， 不 可 能 再 装载 更 多 信息 。 我 们 前 面 提 到 的 遗忘 门 就 是 专门 为 解决 此 类 问题 而 设计 的 ， 可 以 派 上 
MAT: 每 个 时 刻 传递 过 来 的 信息 ,需要 通过 遗忘 门 丢弃 一 些 不 需要 的 信息 ， 当 然 会 记 住 一 些 需 
的 信息 ， 这 就 可 以 防止 上 面 提 到 的 状态 饱和 问题 。 遗 忘 门 的 计算 公式 如 下 : 


fi = 6 (Wire + Wermheen + by) (7.4) 


这 里 g(x) = T 

通过 该 公式 ， 对 于 遗忘 门 而 言 将 会 执行 如 下 操作 : 

o RAWEA 0 意味 着 它 将 不 会 传递 来 自 ctr_1) 的 信息 来 更 新 ct。 
e 遗忘 门 的 值 为 1 意味 着 它 将 传递 来 自 cdt_D 的 所 有 信息 来 更 新 cr。 


接 下 来 ， 我 们 将 看 到 遗忘 门 如 何 帮助 我 们 预测 下 一 句 : 


They named it Luna. 


这 时 可 以 看 到 ， 我 们 正在 寻找 的 新 关系 是 约翰 Cohn) 和 玛丽 (Mary) 以 及 他 们 (They) 之 
间 的 关系 。 因 此 ， 我 们 不 再 需要 有 关 主 语 它 〈It) 的 信息 以 及 动词 barks 的 行为 ， 因 为 主语 是 约翰 
(John) 和 玛丽 (Mary) 。 我 们 通过 遗忘 门 用 当前 主语 (They) 和 其 对 应 动词 (amed) 来 替换 存 
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储 在 当前 神经 元 中 的 主语 和 对 应 的 动词 信息 ， 有 具体 如 图 7-8 所 示 。 


© e e o o 


It -» Puppy Current Verb for barks->loudly 
subject (i.e. current 
"they") subject (i.e. 
"named") 


图 7-8 左边 起 第 二 和 第 三 个 神经 元 的 信息 CIt—barks) 被 新 信息 CThey—named) 所 取代 
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就 涉及 输入 门 和 遗忘 门 的 权重 值 而 言 ， 图 7-9 中 说 明了 这 些 转变 过 程 。 我 们 不 会 改变 维持 
It5puppy 这 种 关系 的 神经 元 的 状态 ， 因 为 puppy 在 最 后 一 句 中 显示 为 一 个 被 操作 对 象 。 这 是 通过 
设置 将 It — puppy 从 cte-1) 连 接 到 c 的 权重 值 设置 为 1 来 完成 的 。 然 后 我 们 将 用 新 的 主语 和 动词 来 
更 新 维持 当前 主语 和 当前 动词 信息 的 神经 元 信息 。 这 是 通过 将 该 神经 元 的 遗忘 权重 值 f 设 置 为 0 来 
实现 的 。 接 着 ,我 们 将 当前 主语 和 动词 连接 到 相应 神经 元 状态 的 权重 值 设置 为 1 ， 我 们 可 以 将 


视 为 哪些 新 信息 (例如 来 自 当前 输入 x 的 新 信息 〉 应 该 被 带 进 细胞 状态 的 实体 中 。 
ETXTT pa 
c fo 


Mmm Ke Nm Qua) m Dem eme 
输入 门 权重 
Cl) 
O.O OO O 
"they" "named" [sa 
图 7-9 用 先前 状态 c(e_1) 和 候选 项 ti 来 计算 细胞 状态 ce 
当前 细胞 状态 将 更 新 如 下 : 


Ct = fecte-y) 十 站 Et 
换 句 话说 ， 当 前 状态 是 以 下 的 组 合 : 


@ ”前 一 个 细胞 状态 遗忘 / 记 住 哪些 信息 。 
e ”要 添加 /丢弃 当前 输入 的 信息 。 


图 7-10 显示 了 当前 在 LSTM 中 进行 的 所 有 计算 的 内 容 。 


(7.5) 
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图 7-10 ”当前 在 进行 的 所 有 计算 的 内 容 Cefet) 
在 学 习 之 后 ， 完 整 的 细胞 状态 如 图 7-11 所 示 。 


It -> Puppy Current Verb for barks-»loudly They -> John 


and Mary 
they") subject (i.e. 
图 7-11 输出 两 个 句子 后 ， 完 整 的 细胞 状态 图 
接 下 来 ， 我 们 将 看 看 如 何 计 算 LSTM 细胞 的 最 终 状 态 (he》: 
ot = a(Wooxr + Wion) hai) + bo) 
he = o,tanh(c,) 


在 示例 中 ， 需 要 输出 以 下 句子 : 


(7.6) 
C731) 


They named it Luna. 


为 此 ， 我 们 不 需要 倒数 第 二 个 神经 元 来 计算 这 个 句子 ， 因 为 它 包 含有 关 小 狗 (puppy) WR 
Cbarks) 的 信息 ， 而 这 句 话 是 关于 小 狗 (puppy〉 名 字 的 。 这 么 看 来 ， 在 最 后 一 句 的 预测 中 就 可 以 


忽略 最 后 一 个 神经 元 (含有 barks 一 loudly 的 关系 ) 。 这 正 是 or 所 做 的 ， 它 将 忽略 不 必要 和 


4 记忆 信 


息 ， 而 仅 在 计算 LSTM 细胞 的 最 终 输出 时 从 细胞 状态 检索 相关 的 记忆 信息 。 图 7-12 给 出 了 LSTM 


细胞 内 部 的 逻辑 。 
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图 7-12 完整 的 LSTM 细胞 的 内 部 逻辑 图 
在 这 里 ， 我 们 总 结 一 下 在 LSTM 细胞 内 部 发 生 操 作 的 所 有 相关 方程 式 。 


it = o(Woin)xe  Wünyha-i) + bi) 


& = tanh(W(cjx, + Weenyħet-1) + bc) 
fc = o6(Wigyxi  Wonha-i + br) 
Ce = fici) + itt 
oz = 0 (Wiox)Xt + Woonyhee-1) + bo) 


h, = o,tanh(c,) 


7.24 LSTM 模型 输出 


现在 从 更 宽 的 角度 来 看 一 下 关于 学 习 序列 样本 数据 的 问题 。 将 LSTM 细胞 随时 间 变 化 展开 ， 
以 便 展示 这 些 细胞 是 如 何 连接 在 一 起 的 , 从 而 挖掘 出 这 些 细胞 接收 先前 的 状态 后 去 计算 下 一 个 细胞 
状态 ， 如 图 7-13 所 示 。 


Se 


7-13 ”LSTM 细胞 随时 间 变 化 的 连接 图 
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但 是 实际 上 , 这 些 还 不 足以 做 一 些 有 用 的 工作 。 正 如 我 们 所 看 到 的 那样 ， 即 使 可 以 创建 一 个 真 
正 能 够 对 序列 数据 进行 建 模 的 LSTM 链 ， 我 们 仍然 无 法 进行 输出 或 预测 ， 而 倘若 想 要 使 用 LSTM 
实际 学 到 的 信息 ， 我 们 需要 一 种 能 够 从 LSTM 细胞 中 抽取 最 终 输出 信息 的 方法 。 因 此 ， 我 们 将 在 
LSTM 顶部 固定 一 个 softmax 层 (包含 权重 值 W 和 偏差 bps》， 最 终 的 输出 可 以 由 以 下 等 式 获得 : 


y, = softmax(W;h, + bs) (7.8) 


现在 ， 带 有 softmax 层 的 LSTM 的 最 终 图 像 如 图 7-14 所 示 。 


图 7-14 带 有 softmax 层 的 LSTM 随时 间 变 化 图 
7.3 LSTM 与 标准 RNN 的 区 别 


本 节 将 要 对 LSTM 与 标准 RNN 进行 比较 分 析 。 实 际 上 ， 与 标准 RNN 相 比 ，LSTM 具有 更 复 
杂 的 结构 。 主 要 区 别 之 一 是 LSTM 具有 两 种 不 同 的 状态 : 细胞 状态 cc 和 最 终 隐藏 状态 ， 而 RNN 仅 
具有 单个 隐藏 状态 。 另 一 个 主要 区 别 在 于 ， 由 于 LSTM 具有 三 个 不 同 的 门 (Gate) ， 因 此 当 计 算 
最 终 隐藏 状态 时 ，LSTM 对 如 何 处 理 当 前 输入 和 先前 的 细胞 状态 具有 更 多 的 控制 空间 。 

LSTM 自 带 的 这 两 种 不 同 的 状态 是 非常 具有 竞争 力 的。 起初,LSTM 模型 的 核心 贡献 (Hochreiter 
和 Schmidhuber, 1997) 是 引入 自 循环 的 绝妙 想法 ， 以 便 产 生 梯 度 长 时 间 不 间断 流动 的 路 线 。 这 里 
的 一 个 关键 性 突破 就 是 自 循环 的 权重 值 视 上 下 文 情况 而 定 ， 而 不 是 固定 的 (Gerset 等 ，2000) 。 门 
控 这 个 自 循环 (由 另 一 个 隐藏 单元 控制 ) 的 权重 值 累积 的 时 间 尺 度 可 以 产生 动态 变化 ， 此 时 即便 
LSTM 的 参数 是 固定 的 , 累积 的 时 间 尺 度 也 能 够 因 输 入 序列 而 发 生变 化 , 这 是 由 于 时 间 常 数 是 模型 
本 身 的 输出 。 由 此 可 见 ，LSTM 这 种 机 制 的 存在 ， 即 使 细胞 状态 发 生 快 速 变 化 ， 最 终 隐藏 状态 仍 将 
变动 得 更 缓慢 。 因此， 虽然 细胞 状态 正在 学 习 短期 和 长 期 依赖 性 ， 但 最 终 隐 藏 状态 可 以 仅 反映 短期 
依赖 性 或 仅 反映 长 期 依赖 性 或 两 者 都 反映 。 

由 此 可 见 ，LSTM 是 一 个 原则 性 更 强 的 方法 (特别 是 与 标准 RNN 相 比 ) ， 因 为 它 可 以 更 加 自 
信 地 控制 当前 输入 和 之 前 细胞 状态 对 当前 细胞 状态 的 贡献 程度 。 此 外 , 输出 门 可 以 更 好 地 控制 细胞 
状态 对 最 终 隐藏 状态 的 贡献 程度 。 在 图 7-15 中 ， 我 们 给 出 了 标准 RNN 和 LSTM 的 比较 示意 图 ， 
显示 出 两 个 模型 之 间 的 差异 。 

综 上 所 述 ， 通 过 设计 和 维持 两 种 不 同 的 状态 ，LSTM 可 以 学 习 短期 和 长 期 依赖 关系 , 这 有 助 于 
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解决 梯度 消失 的 问题 ， 我 们 将 在 下 一 节 中 讨论 。 


7 


O 6 


Wxeb ] [ wxeb ] [wx+b ] [ web 


& 
图 7-15 二 者 对 比 图 示 : 左 侧 为 RNN， 右 侧 为 一 个 LSTM 细胞 


7.4 LSTM 如 何 避 免 梯度 消失 和 梯度 爆炸 问题 


正如 我 们 前 面 所 讨论 的 ， 即 使 RNN 在 理论 上 是 合理 的 ， 但 在 实践 中 它们 也 存在 严重 的 缺陷 。 
也 就 是 说 ， 当 使 用 通过 时 间 反 向 传播 CBPTT) 时 ， 梯 度 会 迅速 减 小 ， 这 使 我 们 只 能 传播 几 个 时 间 
步 长 的 信息 。 这 样 一 来 ， 我 们 只 能 存储 极 少时 间 步 长 的 信息 ， 进 而 只 能 拥有 短期 记忆 。 这 反 过 来 限 
制 了 RNN 在 实际 序列 任务 中 的 应 用 性 。 

通常 有 用 且 有 趣 的 序列 工作 任务 〈 例 如 股票 市 场 预测 或 语言 建 模 ) 需要 具有 学 习 和 存储 长 期 依 
赖 关 系 的 能 力 。 以 下 示例 用 于 预测 下 一 个 单词 : 


John is a talented student. He is an A-grade student and plays rugby and cricket. 
All the other students envy 


对 我 们 来 说 ， 这 是 一 项 非常 容易 的 任务 。 答 案 是 约翰 don) 。 但 是 ， 对 于 RNN 来 说 ， 这 是 
一 项 艰巨 的 任务 。 我 们 试图 预测 一 个 答案 ， 该 答案 位 于 文本 的 开头 。 为 了 解决 这 个 任务 ， 我 
们 需要 一 种 在 RNN 状态 下 存储 长 期 依赖 关系 的 方法 。 这 正 是 LSTM 旨 在 解决 的 任务 类 型 。 

在 第 6 章 的 循环 神经 网 络 中 ， 我 们 讨论 了 如 何在 没有 任何 非 线性 函数 的 情况 下 出 现 梯度 消失 / 
爆炸 。 我 们 现在 将 看 到 ， 即 使 存在 非 线性 项 ， 它 仍然 可 能 发 生 。 为 此 ， 我 们 将 看 到 导数 项 -eae_- Dm "i 
何 用 于 标准 RNN 和 LSTM (LSTM [1/228 E) 网 络 。 正 如 我 们 在 第 6 章 中 所 学 到 的 ， RESNI 


度 消 失 的 关键 项 。 
假设 标准 RNN 的 隐藏 状态 计算 如 下 : 
he = o(Wrxe + Wrhge-1)) 


为 了 简化 计算 , 我 们 可 以 忽略 当前 与 输入 相关 的 项 , 并 将 重点 放 在 循环 部 分 ， 这 将 给 出 以 下 等 
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式 : 
h = 0 (Wh) 
如 果 我 们 计算 前 面 的 jue_ 项 ， 将 得 到 以 下 结果 : 


天 一 1 
= | [wenns - oh) 
dhew 11 


-WE Ed S(Wyho 5) (1 E o(Wsho i0) 


MURIE E HW, hee iac c6 0 RW hey 0 时 会 发 生 什么 。 在 这 两 种 情况 下 ， md 
开始 接近 0， 从 而 发 生 梯度 消失 。 当 Wujhe_kip= 0 时 ， 对 于 Sigmoid 激活 函数 而 言 ， 梯 度 是 最 大 的 
(0.25) ， 当 乘 以 多 个 时 间 步 长 时 ， 整体 梯 度 变 得 非常 小 。 此 外 ,Ww 项 (可 能 由 于 初始 化 不 合理 ) 
也 会 导致 梯度 爆炸 或 消失 。 然 而 ， 与 由 Wihce_x4i)<< 0 或 Whhe_k+D>> 0 而 导致 的 梯度 消失 相 比 ， 
由 Wx 项 引起 的 梯度 消失 /爆炸 相对 容易 解决 (认真 合理 初始 化 权重 值 和 进行 梯度 裁剪 〉。 

现在 让 我 们 看 一 下 细胞 状态 ， 由 下 式 给 出 : 

Ct = ficii) + && 
这 是 LSTM 中 发 生 的 所 有 遗忘 门 应 用 的 产物 。 但 是 , 如 果 以 类 似 的 方式 为 LSTM 计算 


略 W7rzxt 项 和 访 ， 因 为 它们 是 非 循环 的 ) ， 将 得 到 以 下 结果 : 


acr 
( 忽 
9c(-i)) 


Oc, 
0cde- 有 


k-i 
= ll 9 (Wrenh(ii)) 


i=0 
在 这 种 情况 下 ， 如 果 Wihks_ieri)<< 0， 那 么 梯度 将 消失 ， 另 一 方面 ， 如 果 Wihke_ier>> 0， 那 么 
导数 将 比 标准 RNN 中 的 变动 速度 慢 得 多 。 此 外 ， 当 使 用 压缩 函数 时 ， 由 于 ee 很 大 (梯度 爆炸 
期 间 可 能 发 生 的 事情 ) ,梯度 不 会 爆炸 。 此 外 ， 当 Wihte_x4i>> 0 时, 我 们 得 到 接近 1 的 最 大 梯度 ， 
这 意味 着 梯度 不 会 像 我 们 在 RNN 中 看 到 的 那样 迅速 减 小 〈 当 梯度 达到 最 大 值 时 ) 。 最 后 ， 在 推导 
中 没有 诸如 lt 之 类 的 项 。 然 而 ， 对 于 5 的 推导 更 为 棘手 。 让 我 们 看 看 这 些 项 是 否 存在 于 ae 
的 推导 中 。 如 果 我 们 计算 出 它 的 这 些 推导 ， 将 得 到 以 下 的 式 子 : 
Oh, _ 9(ortanh(c)) 
he-r) he-r) 
一 旦 解决 了 这 个 问题 ， 我 们 就 会 得 到 这 样 的 形式 : 
tanh()aC)[1 一 caC)]won+aC)I1 一 tanh (GeocC)IL 一 acC)]wn+aC)I 一 tanh()]won 
+ tanh(.)o(.)[1 — a(.)]win) 
我 们 不 关心 5(.) 或 tanh (. ) 内 的 内 容 ， 因 为 无 论 是 什么 值 ， 它 都 将 在 0,1) 或 (-1,1) 的 范围 
之 内 。 如 果 我 们 用 一 些 常见 的 符号 (比如 Yy(.)) KEH o(.)、 [1-0 (.)] 、tanh(.) 和 [1-tanh (.)^2] 
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s 


将 得 到 如 下 式 子 : 
Y(C)won + YC)lca-oY C)wg + YC)wan 十 YC)win] 
或 者 得 到 以 下 结果 假设 外 部 y(. ) 被 方 括号 内 的 每 个 Y(. ) 项 吸收 》: 
Y C)Won + Cee-1)¥ (-)Wfn + Y C)Wen + Y C)Win 
这 将 给 出 以 下 内 容 : 


k—1 
Oh 

一 =] [Y Owon + ce-ar wy + YOwa + YC )win 
Dhe 11 


这 意味 着 昌 然 项 对 任何 Wk 项 是 安全 的 ， 但 是 对 不 是 。 因此 ， 在 初始 化 LSTM 的 权 


Oc(r-k) 


重 值 时 必须 谨慎 ， 我 们 也 应 该 使 用 梯度 裁剪。 


尽管 如 此 ， 梯度 消失 的 稳定 性 对 于 LSTM 并 不 像 RNN 那样 重要 。 因为 ct 仍然 可 以 存储 长 
期 依赖 性 而 不 受 梯度 消失 的 影响 ， 并 且 如 果 需 要 ， 训 可 以 从 ct 处 检索 长 期 依赖 性 。 


7.5 优化 LSTM 


正如 我 们 在 学 习 RNN 时 所 看 到 的 那样 ， 拥 有 坚实 的 理论 基础 并 不 一 定 能 保证 它们 在 实践 中 表 
现 最 佳 。 这 是 由 于 计算 机 数值 精度 的 限制 所 致 ，LSTM 也 是 如 此 。 拥 有 复杂 的 设计 ， 人 允许 更 好 地 建 
模 数据 中 的 长 期 依赖 性 ， 这 本 身 并 不 意味 着 LSTM 将 输出 完全 准确 的 预测 。 因 此 ， 已 经 开发 了 许 
多 扩展 来 帮助 LSTM 在 预测 阶段 表现 得 更 好 。 在 这 里 ， 我 们 将 讨论 几 个 这 样 的 改进 : RERE 
集束 搜索 、 使 用 词 向 量 而 不 是 词 的 One-Hot 编码 表示 以 及 使 用 双向 LSTM。 


7.5. AZRE 


如 果 我 们 始终 试图 以 最 高 概率 预测 词 ，LSTM 将 倾向 于 产生 非常 单一 的 结果 。 例 如 ， 它 会 在 切 
换 到 另 一 个 单词 之 前 多 次 重复 单词 the。 

解决 这 个 问题 的 一 种 方法 是 使 用 贪 禁 采 样 (Greedy Sampling) ， 我 们 从 中 选择 预测 最 佳 的 n 
和 样本 。 这 有 助 于 打破 预测 的 单一 性 。 

让 我 们 考虑 前 一 个 例子 的 第 一 句 话 : 


John gave Mary a puppy. 


我 们 从 第 一 个 单词 开始 ， 并 想 要 预测 接 下 来 的 4 个 单词 : 


John 


如 果 我 们 尝试 确定 性 地 选择 样本 ，LSTM 可 能 倾向 于 输出 如 下 内 容 : 
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John gave Mary gave John. 

但 是 , 通过 从 词汇 表 里 的 一 个 单词 子 集中 采样 下 一 个 单词 , LSTM 被 迫 改变 预测 并 可 能 输出 以 
下 内 容 : 

John gave Mary a puppy. 

或 者 提供 以 下 输出 : 

John gave puppy a puppy. 

但 是 ,即使 贪 禁 采样 有 助 于 为 生成 的 文本 添加 更 多 变化 , 此 方法 也 不 能 保证 输出 始终 是 真实 的 ， 


尤其 是 在 输出 较 长 的 文本 序列 时 。 接 下 来 我 们 看 一 种 更 好 的 搜索 技术 , 它 实际 上 在 预测 之 前 的 几 个 
步骤 中 是 超前 运行 的 。 


752 ”集束 搜索 


集束 搜索 (Beam Search) 是 一 种 帮助 LSTM 改善 预测 质量 的 方法 。 在 此 ， 通 过 解决 搜索 问题 
找到 预测 。 集 束 搜索 的 关键 思想 是 一 次 产生 (b+1) 个 输出 yc, Yay (a2) Ve) 而 不 是 单 
个 输出 xm。 这 里 ，b 被 称 为 集束 的 长 度 ， 并 且 产 生 的 b 个 输出 被 称 为 集束 。 从 技术 上 讲 ， 我 们 选择 
具有 最 高 联合 概率 p(ye Yar Y(es2y - Varo) | Xt) 的 集束 , 而 不 是 选择 单一 项 的 最 高 概率 pP(Oxe | x) 
在 进行 预测 之 前 ， 我 们 将 会 进一步 研究 未 来 ， 这 通常 会 带 来 更 好 的 结果 。 

让 我 们 通过 前 面 的 例子 来 理解 集束 搜索 : 


John gave Mary a puppy. 
这 里 ， 我 们 将 逐个 进行 单词 预测 。 最 初 我 们 有 以 下 内 容 : 


John 


假设 LSTM 使 用 集束 搜索 产生 例句 ， 那 么 每 个 单词 的 概率 可 能 就 像 图 7-16 中 的 那样。 假设 集 
来 长 度 b=2， 我 们 将 在 搜索 的 每 个 阶段 考虑 n=3 个 最 佳 候选 项。 搜索 树 如 图 7-16 所 示 。 
AN 
TII. 


03 02 015 02 01 0.2 02 0.1 02 24 az ‘02 
John aave Mary a puppy John qave Mary a puppy John gave Mary a puppy 


图 7-16 集束 搜索 的 空间 结构 ， 这 里 n=3 H b-2 


我 们 从 单词 John 开始 ， 得 到 词汇 表 中 所 有 单词 的 概率 。 在 例子 中 ， 当 n=2 时 ， 我 们 为 树 的 下 
一 级 选择 最 好 的 三 个 候选 项 : gave、Mary 和 puppy。 这 里 特别 说 明 ， 这 些 可 能 不 是 LSTM 实际 找 
到 的 候选 项 ， 仅 用 作 示例 而 已 。 然 后 从 这 些 选 定 的 候选 项 中 ， 树 的 下 一 级 继续 延伸 。 在 那里 ， 搜 索 
将 重复 ， 直 至 搜索 到 树 中 的 深度 为 b， 我 们 将 挑选 最 好 的 三 个 候选 项 。 
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图 7-16 中 给 出 了 最 高 联合 概率 的 路 径 CP. Cgave , Mary | John) = 0.09) ， 这 里 用 粗 线 箭头 突出 
显示 。 这 是 一 种 更 好 的 预测 机 制 , 因为 它 会 为 诸如 John gave Mary 之 类 的 短语 返回 更 高 的 概率 或 奖 
励 ， 而 不 是 John Mary John 或 John gave。 

注意 , 贪 禁 采 样 和 集束 搜索 产生 的 输出 在 我 们 的 示例 中 是 相同 的 , 这 是 一 个 包含 5 个 单词 的 简 
单 句子 。 然 而 ， 当 我 们 将 其 处 理 以 输出 一 篇 小 文章 时 ,情况 并 非 如 此 。 事 实 上 ， 通 过 集束 搜索 产生 
的 结果 将 比 通过 贪 禁 采 样 产生 的 结果 更 加 真实 ， 语 法 更 加 正确 。 


7.5.3 ”使 用 词 向 量 

另 一 种 优化 LSTM 性 能 的 流行 方法 是 使 用 词 向 量 而 不 是 使 用 One-Hot 编码 向 量 作为 LSTM 的 
输入 。 让 我 们 结合 上 面 的 例子 来 进行 探讨 。 假 设 我 们 想 要 从 一 些 随机 单词 中 生成 文本 ， 它 将 是 以 下 
内 容 : 

John > 


我 们 根据 以 下 句子 训练 了 LSTM 模型 : 


John gave Mary a puppy. Mary has sent Bob a kitten. 


假设 将 词 向 量 定位 如 图 7-17 所 示 。 


John 
*e 
Mary 
e kitten 
. gave 
ui 
puppy * o 


图 7-17 二 维 空间 中 的 词 向 量 拓 扑 


这 些 词 向 量 的 数字 形式 可 能 如 下 : 


kitten: [0.5, 0.3, 0.2] 
puppy: [0.49, 0.31, 0.25] 
gave: [0.1, 0.8, 0.9] 


可 以 看 出 kitten , puppy) 的 距离 小 于 (kitten , gave) 的 距离 。 但 是 ， 如 果 我 们 使 用 One-Hot 
编码 ， 它 们 将 如 下 : 
kitten? [ 1, OF 0, ...] 


puppy: [0, 1, 0, ...] 
gave: [0, O0, 1, ..] 


而 此 时 ， (kitten ,puppy) 的 距离 和 Ckitten, gave) 的 距离 相等 。 正 如 所 看 到 的 那样 ，One-Hot 
Bob 


编码 向 量 不 能 捕获 单词 之 问 的 正确 关系 ， 且 看 到 所 有 单词 彼此 之 间 的 距离 都 相等 。 然 而 ， 词 向 量 能 
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够 捕获 这 种 关系 ， 且 这 种 关系 更 适合 作为 LSTM 的 特征 。 
由 此 可 见 ， 使 用 词 向 量 ，LSTM 将 学 习 到 更 好 的 词 之 间 的 关系 。 例 如 ， 使 用 词 向 量 ，LSTM 将 
学 习 以 下 内 容 : 


John gave Mary a kitten. 


这 非常 接近 以 下 内 容 : 


John gave Mary a puppy. 
此 外 ， 它 与 以 下 内 容 完全 不 同 : 


John gave Mary a gave. 


但 是 ， 如 果 使 用 One-Hot 编码 向 量 ， 就 不 会 出 现 这 种 情况 。 
7.5.44 双向 LSTM 


使 双向 LSTM (Bidirectional LSTM，BiLSTM) 是 提高 LSTM 预测 质量 的 一 种 方法 。 利 用 该 方 
法 可 以 训练 LSTM 从 开始 到 末端 和 从 末端 到 开始 读 取 数 据 。 在 训练 LSTM 期 间 ， 将 创建 如 下 数据 
集 。 

考虑 以 下 两 句 话 : 


John gave Mary a . It barks very loudly. 


在 这 个 阶段 ， 我 们 希望 LSTM 能 够 合理 地 填补 第 一 个 句子 中 的 缺失 数据 。 
如 果 从 头 开始 读 到 缺失 的 单词 ， 那 么 将 是 : 


John gave Mary a 


这 没有 提供 关于 缺失 单词 上 下 文 的 足够 信息 以 便 正 确 地 填充 单词 。 但 是 ， 如 果 同 时 双向 读 取 ， 
那么 将 是 以 下 内 容 : 
John gave Mary a 


. It barks very loudly. 


如 果 我 们 使 用 这 两 个 部 分 创建 数据 ， 就 足以 预测 丢失 的 单词 应 该 像 dog 或 puppy。 因 此 ， 从 两 
个 方向 读 取 数据 可 以 显著 优化 某 些 问题 的 解决 思路 。 此 外 , 这 增加 了 神经 网 络 可 用 的 数据 量 并 提高 
了 其 性 能 。 

BiLSTM 的 另 一 个 应 用 是 神经 网 络 机 器 翻译 ， 将 源 语言 的 句子 翻译 成 目标 语言 的 句子 。 由 于 一 
种 语言 的 翻译 与 男 一 种 语言 之 间 没 有 特定 的 一 致 性 , 因此 了 解 源 语言 的 过 去 和 未 来 有 助 于 更 好 地 理 
解 上 下 文 ， 从 而 产生 更 好 的 翻译 效果 。 例 如 ， 将 菲律宾 语 翻译 成 英语 的 翻译 任务 。 在 菲律宾 语 中 ， 
句子 通常 按 顺 序 写成 verb-object-subject, 而 在 英语 中 , 则 是 subject-verb-object。 在 这 个 翻译 任务 中 ， 
前 和 向 后 阅读 句子 以 进行 良好 的 翻译 。 


可 
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BiLSTM 本 质 上 是 两 个 独立 的 LSTM 网 络 。 一 个 网 络 从 头 到 尾 学 习 数 据 ， 另 一 个 网 络 从 尾 到 
头 学 习 数据 。 在 图 7-18 中 说 明了 BiLSTM 网 络 的 架构 。 


图 7-18 BiLSTM 架构 示意 图 
训练 部 分 有 两 个 阶段 。 首先 , 通过 从 开头 到 结尾 读 取 文本 而 创建 的 数据 训练 实 线 网 络 。 该 网 络 
代表 用 于 标准 LSTM 的 正常 训练 流程 。 其 次 ， 使 用 通过 反 向 读 取 文本 生成 的 数据 训练 虚线 网 络 。 
然后 ， 在 推理 阶段 使 用 实 线 和 虚线 状态 的 信息 (通过 连接 两 个 状态 并 创建 向 量 ) 来 预测 缺失 单词 。 


7.6 LSTM 的 其 他 变 体 


虽然 我 们 主要 关注 标准 的 LSTM 架构 ， 但 是 它 也 有 许多 变 体 ， 它 们 既 可 以 简化 标准 LSTM 中 
的 复杂 架构 ， 又 可 以 产生 更 好 的 性 能 ， 或 者 两 者 兼 而 有 之 。 我 们 将 研究 两 种 对 LSTM 细胞 架构 进 
行 调整 的 变 体 : 窥视 孔 连 接 (Peephole Connection) 和 门 控 循 环 单元 (Gated Recurrent Unit, GRU) 。 


7.6.1 帘 视 孔 连 接 


SUULTLXEBCIDUCYEIL] (Gate) 能 够 看 到 当前 输入 和 先前 的 最 终 隐藏 状态 ， 还 允许 看 到 先前 的 
细胞 状态 。 这 增加 了 LSTM 细胞 架构 中 的 权重 值 数量 。 已 经 证 明 具有 这 种 连接 可 以 产生 更 好 的 结 
果 ， 这 些 方程 式 如 下 : 


it = o (Wiix)Xt + Woinheey + Weiacee-y + bi) 
& = tanh(Wox: + Weerhee-y + be) 


fr=oWoaxe t Womhee-y + Woocee-y + br) 
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Ct = fici) 十 站 人 
Ot =a(Wooxz 二 Womhec-D 二 Wooceo + bo) 
h, = ortanh(co) 


让 我 们 简要 介绍 一 下 这 些 是 如 何 优化 LSTM 模型 的 。 这 些 门 看 到 的 是 当前 输入 和 最 终 隐藏 状 
态 , 但 不 是 细胞 状态 。 不 过 ， 在 此 配置 中 ， 如 果 输 出 门 的 值 接近 零 ， 即 使 细胞 状态 包含 对 于 提升 性 
能 至 关 重 要 的 信息 ,最终 隐藏 状态 也 将 接近 于 零 。 因 此 ,这些 门 在 计算 期 间 不 会 考虑 隐藏 状态 。 在 
门 计算 方程 中 含有 细胞 状态 和 被 允许 对 细胞 状态 做 更 多 的 控制 ,并且 即使 在 输出 门 接近 零 的 情况 下 
它 也 可 以 表现 良好 。 

我 们 用 图 7-19 中 的 窥视 孔 连接 来 说 明 LSTM 的 架构 ,标准 LSTM 中 的 所 有 现 有 连接 进行 了 灰 
色 处 理 ， 新 添加 的 连接 以 黑色 显示 。 


(X)« 


@ BO © 
E b MS 


[siemoid ] [tann ] [sigmoid ][ sigmoia ] 
4 4 


图 7-19 有 窥视 孔 连 接 的 LSTM (窥视 孔 连 接 显示 为 黑色 ， 其 他 连接 显示 为 灰色 ) 


7.6.2“ 门 控 循 环 单元 


门 控 循 环 单元 (Gated Recurrent Unit, GRU) 可 被 视 为 标准 LSTM 架构 的 简化 情况 。 正 如 我 们 
看 到 的 ， LSTM 有 三 个 不 同 的 门 和 两 个 不 同 的 状态 。 即 使 对 于 规模 小 的 状态 ， 仅 这 一 点 也 需要 大 量 
参数 。 因 此 ， 科 学 家 们 研究 了 减少 参数 数量 的 方法 ， 而 GRU 就 是 这 样 一 种 方法 。 标 准 LSTM 和 
GRU 之 间 有 几 个 主要 差异 ， 具 体 如 下 : 

首先 ，GRU 将 两 个 状态 〈 细 胞 状态 和 最 终 隐 藏 状态 ) 组 合成 单个 隐藏 状态 。 现 在 ， 针 对 这 两 
种 细胞 状态 做 简单 修改 后 ,结果 就 是 我 们 失去 了 输出 门 。 由 前 面 的 内 容 , 我 们 知道 输出 门 只 是 决定 
将 多 少 细胞 状态 读 入 最 终 隐 藏 状态 ， 因 此 此 操作 大 大 减少 了 LSTM 细胞 中 的 参数 数量 。 

接 下 来 ，GRU 引入 一 个 复位 门 〈 或 称 为 重 置 门 ) ， 当 它 接近 1 时 ， 在 计算 当前 状态 时 将 获取 
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完整 的 先前 状态 信息 ; 而 当 复 位 门 接近 0 时 ， 它 在 计算 当前 状态 时 忽略 先前 的 状态 信息 。 
n. —90 (We xe d: Womhee_y tb.) 
fi, = tanh(Wqx, + We (rehce_1) + bn) 


其 次 ，GRU 将 输入 门 和 遗忘 门 组 合成 一 个 更 新 门 。 标 准 LSTM 有 两 个 门 : 输入 门 和 遗忘 门 。 
输入 门 决定 将 多 少 目前 输入 读 入 细胞 状态 ， 而 遗忘 门 决定 将 多 少 先 前 细胞 状态 读 入 当前 细胞 状态 。 
在 数学 上 ， 这 可 以 显示 如 下 : 


it = o (Wax: + Weimhee-y + bi) 
h= o(Wefx)Xt $ Wemhee-1) Tt br) 


如 果 更 新 门 是 0， 就 将 先前 细胞 状态 的 完整 状态 信息 推 入 当前 细胞 状态 ， 其 中 当前 输入 没有 被 
读 入 当前 状态 。 如 果 更 新 门 是 1， 那 么 所 有 当前 输入 被 读 入 当前 细胞 状态 ， 而 之 前 细胞 状态 都 不 会 
被 推送 到 当前 细胞 状态 。 换 句 话 说， 更 新 门 变 为 遗忘 门 的 反 转 ， 即 1 一 无: 


Zt = G(Wgyx + Wozmhee-1) + bz) 
h = zh, + (1 - Zohoc-D 
现在 我 们 把 GRU 设计 的 方程 式 总 结 一 下 ， 具 体 如 下 : 


Te = 0(Wqeyxe + Wormhee-y + br) 


fi, = tanh(Woaoxe + Won) (rehce_1)) + bn) 
Zt = 0(Wex)Xt + Wozmhee-y) + bz) 
h, 2 zh, (1— Zo)hoa) 


这 比 LSTM 更 紧凑 。 在 图 7-20 中 ， 我 们 给 出 了 GRU 细胞 ( 左 图 ) 和 LSTM 细胞 AR) 。 


7-20 GRU 和 LSTM 的 对 比 
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7.7 总 结 


在 本 章 中 ， 我 们 学 习 了 LSTM 网 络 。 首 先 ， 我 们 讨论 了 LSTM 及 其 高 级 架构 ， 还 深入 研究 了 
LSTM 中 发 生 的 详细 计算 ， 并 通过 一 个 例子 讨论 了 计算 过 程 。 
我 们 看 到 LSTM 主要 由 5 个 不 同 的 部 分 组 成 。 


细胞 状态 ( Cell State) : LSTM 细胞 的 内 部 状态 ( 存储 器 ) 。 

隐藏 状态 (Hidden State) : 外 部 隐藏 状态 用 于 计算 预测 。 

输入 门 (Input Gate ) : 这 决定 了 当前 输入 被 读 入 细胞 状态 的 程度 。 

遗忘 门 (Forget Gate) : 这 确定 了 将 先前 的 细胞 状态 发 送 到 当前 细胞 状态 的 程度 。 
输出 门 (Output Gate ) : 这 决定 了 将 多 少 细胞 状态 输出 到 隐藏 状态 。 


拥有 如 此 复杂 的 结构 允许 LSTM 很 好 地 捕获 短期 和 长 期 依赖 性 。 

我 们 发 现 LSTM 实际 上 能 够 将 长 期 依赖 性 作为 其 结构 的 固有 部 分 进行 学 习 , 而 RNN 可 能 无 法 
学 习 长 期 依赖 性 。 之 后 ， 我 们 讨论 了 LSTM 如 何 通过 其 复杂 的 结构 解决 梯度 消失 的 问题 。 

然后 ， 我 们 讨论 了 几 个 可 以 提高 LSTM 性 能 的 扩展 。 首 先是 我 们 称 之 为 贪 禁 采 样 的 一 种 非常 
简单 的 技术 ， 其中, 我们 不 是 总 是 输出 最 佳 候选 项 ， 而 是 从 一 组 最 佳 候 选项 中 随机 采样 预测 。 我 们 
看 到 这 种 技术 改善 了 生成 文本 的 多 样 性 。 接 下 来 , 我 们 研究 了 一 种 称 为 集束 搜索 的 更 复杂 的 搜索 技 
术 。 通 过 这 种 技术 ， 我 们 可 以 预测 未 来 的 几 个 时 间 步 长 ， 并 选择 产生 最 佳 联合 概率 的 候选 项 ， 而 不 
是 对 未 来 的 单个 时 间 步 长 进行 预测 。 另 一 项 改进 是 词 向 量 如 何 帮助 我 们 提高 LSTM 预测 的 质量 。 
使 用 词 向 量 , LSTM 可 以 更 有 效 地 学 习 在 预测 期 间 蔡 换 语义 相似 的 词 ( 例 如 ,代替 输出 dog, LSTM 
可 能 输出 cat) ， 从 而 使 生成 文本 更 真实 和 正确 。 我 们 考虑 的 最 终 扩 展 是 BILSTM 或 双向 LSTM。 
BiLSTM 的 一 个 流行 应 用 是 填充 短语 中 的 缺失 单词 。 BiLSTM 可 以 从 开始 到 末端 、 从 末端 到 开始 两 
个 方向 读 取 文本 。 这 为 我 们 提供 了 更 多 的 文本 背景 资料 , 因为 我 们 在 正式 预测 之 前 可 以 观察 到 待 生 
成 文本 的 过 去 和 未 来 。 

最 后 ， 我 们 讨论 了 LSTM 的 两 种 变 体 : MAILEA GRU. Vanilla LSTM 在 计算 门 时 ， 只 查 
看 当前 输入 和 隐藏 状态 。 通 过 窥视 孔 连接 ， 我 们 使 门 计 算 依赖 于 所 有 当前 输入 、 隐 藏 和 细胞 状态 。 

GRU 是 VanillaLSTM 更 优秀 的 变 体 ， 可 简化 LSTM 而 不 会 影响 性 能 。 GRU 只 有 两 个 门 和 一 
个 状态 ， 而 VanillaLSTM 有 三 个 门 和 两 个 状态 。 

在 下 一 章 中 , 我 们 将 看 到 这 些 不 同 的 架构 与 每 个 架构 的 实现 , 并 了 解 它们 在 文本 生成 任务 中 的 
表现 。 


利用 LSTM 自动 生成 文本 


文本 自动 生成 是 自然 语言 处 理 领 域 的 一 个 重要 研究 方向 , 这 项 技术 可 以 实现 让 计算 机 像 人 类 一 
样 撰写 出 高 质量 的 自然 语言 文本 。 就 不 同 的 输入 而 言 , 我 们 可 以 将 文本 自动 生成 划分 为 文本 到 文本 
的 生成 (Text-to-Text Generation) 、 意 义 到 文本 的 生成 (Meaning-to-Text Generation) 、 数 据 到 文 
本 的 生成 CData-to-Text Generation). 以 及 图 像 到 文本 的 生成 (Image-to-Text Generation) 等 ， 其 中 
图 像 到 文本 生成 方面 的 研究 内 容 将 在 下 一 章 单独 介绍 。 这 些 文 本 生成 技术 每 一 项 都 有 很 大 的 挑战 性 ， 
有 不 少 研究 人 员 都 在 做 着 前 沿 的 研究 ， 且 相关 领域 应 用 的 潜力 巨大 。 例 如 , 文本 自动 生成 技术 可 以 
应 用 于 基于 海量 语料库 的 智能 问答 和 对 话 、 新 闻 文 章 的 撰写 、 突 发 事件 的 实时 报道 以 及 海量 文献 书 
籍 的 自动 摘要 等 , 甚至 可 以 用 来 帮助 学 者 进行 学 术 论 文 的 撰写 , 从 而 实现 更 加 智能 和 自然 的 人 机 交 
互 ， 以 减少 许多 语言 工作 人 员 的 工作 量 ， 并 推动 相关 领域 向 更 高 的 水 平 发 展 。 比 较 典 型 的 案例 : 美 
联 社 2014 年 7 月 已 采用 新 闻 写 作 软 件 自动 撰写 新 闻 稿 件 来 报道 公司 业绩 ， 美 国 洛杉矶 时 报 利用 
应 用 软件 来 撰写 突 发 新 闻 ， 美 国 “ 自 动 洞察 力 ” 公 司 CAutomated Insights) 采用 “语言 专家 ”软件 
撰写 橄榄 球 、 财 经 等 方面 的 新 闻 报 道 。 这些 具 体 案例 标志 着 文本 自动 生成 技术 已 经 对 我 们 的 工作 和 
生活 产生 了 积极 的 影响 。 

在 第 7 章 ， 我 们 已 经 很 好 地 理解 了 LSTM 的 基本 原理 ， 例 如 它们 如 何 解决 梯度 消失 和 更 新 规 
则 的 问题 ， 下 面 可 以 看 看 如 何在 NLP 任务 中 使 用 它们 。 LSTM 大 量 用 于 文本 生成 和 图 像 标题 生成 
等 任务 。 例 如 ， 语 言 建 模 对 于 文本 摘要 任务 非常 有 用 ， 或 者 为 产品 生成 迷人 的 文本 广告 ， 其 中 图 像 
标题 生成 或 图 像 注释 对 于 图 像 检索 非常 有 用 , 并 且 用 户 可 能 需要 检索 表示 某 些 概念 的 图 像 〈 例 如 一 
只 狗 ) 。 

本 章 先 从 文本 自动 生成 的 前 三 个 技术 开始 讲解 ， 接 着 介绍 使 用 LSTM 生成 新 文本 。 为 此 ， 我 
们 将 下 载 格林 兄弟 的 一 些 民间 故事 的 文本 集 , 将 使 用 这 些 故 事 来 训练 LSTM, 并 在 最 后 要 求 输出 一 
个 全 新 的 故事 。 我 们 将 通过 把 文本 分 解 成 字符 级 二 元 组 (n-gram， 其 中 n=2) 来 处 理 文本 ， 并 利 
唯一 的 二 元 组 来 制作 词汇 表 。 我 们 还 将 探索 实现 之 前 提 到 的 技术 和 方法 , 例如 贪 禁 采 样 或 集束 搜索 
预测 。 之 后 , 我 们 将 介绍 如 何 实现 除 标准 LSTM 之 外 的 时 间 序 列 模型 , 例如 具有 罕 视 孔 连接 和 GRU 
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ff] LSTM. 

接 下 来 , 我 们 将 学 习 生 成 具有 比 字符 级 二 元 组 (比如 单个 单词 ) 更 好 的 输入 表示 的 文本 。 注意， 
与 字符 级 二 元 组 相 比 , 具有 One-Hot 编码 的 单词 特征 是 非常 低 效 , 因为 词汇 量 可 以 随 着 单词 快速 增 
K. 因此， 解决 这 个 问题 的 一 个 好 方法 是 学 习 词 向 量 (或 使 用 预 处 理 的 向 量 ) ， 并 将 其 作为 LSTM 
的 输入 。 使 用 词 向 量 能 够 避免 维 数 灾难 。 在 现实 世界 的 这 类 问题 中 ， 词 汇 量 的 大 小 可 以 介 于 
10000-1000000 之 间 。 然 而 ， 尽 管 词汇 量 很 大 ， 不 过 词 向 量具 有 固定 的 维度 。 


8.1 文本 到 文本 的 生成 


文本 到 文本 的 生成 技术 旨 在 对 给 定 文本 进行 变换 和 处 理 ， 从 而 获得 新 文本 ， 涵 盖 文 本 摘要 
(Document Summarization) 、 句 子 压 缩 (Sentence Compression) 、 句 子 融合 (Sentence Fusion) 、 
文本 复述 生成 (Paraphrase Generation) 等 主要 方面 。 对 这 些 不 同 的 技术 ， 研 究 人 员 已 经 进行 了 很 
多 年 的 研究 , 且 获 得 的 研究 成 果 大 多 在 自然 语言 处 理 相 关 学 术 会 议 与 期 刊 上 进行 了 公开 发 表 , 例如 
ACL, EMNLP. NAACL,. COLING. AAAI, IJCAI, SIGIR, INLG. ENLG 等 。 实 际 上 ， 从 某 种 
程度 上 而 言 ， 我 们 可 以 将 机 器 翻译 当 作 一 种 从 源 语 言 到 目标 语言 的 文本 生成 技术 。 当 然 ,由 于 机 器 
翻译 是 相对 独立 的 一 个 研究 领域 ， 因 此 我 们 将 在 第 11 章 针 对 这 方面 的 内 容 进 行 单独 介绍 。 


8.1.1 文本 摘要 


文本 摘要 技术 是 通过 自动 分 析 给 定 的 文档 或 文档 集 , 抽取 其 中 的 要 点 信息 , 进而 输出 一 篇 短小 
的 摘要 (通常 包含 几 句 话 或 上 百 字 ) ， 该 摘要 中 的 内 容 可 直接 出 自 原文 ， 也 可 重新 撰写 生成 。 我 们 
进行 文本 搞 要 的 目的 是 通过 对 原文 本 进行 压缩 、 提 炼 ,为 用 户 提供 简明 扼要 的 内 容 描述 。 关 于 文本 
摘要 ， 业 界 有 着 不 同 的 划分 标准 ， 具 体 如 下 : 

根据 所 要 处 理 的 文档 数量 不 同 , 文本 摘要 可 以 分 为 单 文本 摘要 和 多 文本 摘要 。 显 然 ， 单 文本 摘 
要 只 对 单 篇 文本 生成 摘要 ， 多 文本 摘要 则 对 一 个 文本 集 生成 摘要 。 

根据 提供 的 上 下 文 语 境 不 同 , 文本 摘要 可 以 分 为 主题 或 查询 无 关 的 摘要 和 主题 或 查询 相关 的 摘 
要 。 主题 或 查询 无 关 的 摘要 是 指 不 给 定 主题 和 查询 的 条 件 下 对 文本 或 文本 集 生成 的 摘要 ; 主题 或 查 
询 相 关 的 摘要 是 指 在 给 定 的 某 个 主题 或 查询 的 情况 下 能 够 阐明 该 主题 或 回答 该 查询 。 

根据 摘要 所 采用 的 方法 不 同 , 文本 摘要 可 以 分 为 生成 式 和 抽取 式 。 生 成 式 一 般 需 要 利用 自然 语 
言 理 解 技术 对 文本 进行 语法 和 语义 方面 的 分 析 , 并 对 信息 进行 融合 , 利用 自然 语言 生成 技术 生成 新 
的 摘要 内 容 。 而 抽取 式 则 相对 比较 简单 ， 主 要 利用 不 同方 法 对 文档 结构 单元 (句子 、 段 落 等 ) 进行 
评价 ,对 每 个 结构 单元 赋予 一 定 权重 值 ,然后 选择 最 重要 的 结构 单元 组 成 摘要 。 应 用 比较 多 的 是 抽 
取 式 ， 通 常 采用 的 结构 单元 为 句子 。 

根据 摘要 的 应 用 类 型 不 同 ,摘要 可 以 分 为 标题 摘要 、 传 记 摘要 、 电 影 摘要 等 。 这 些 摘 要 一 般 是 
为 了 满足 某 些 特定 的 应 用 需求 , 比如 传记 摘要 的 目的 是 为 某 个 人 生成 一 个 概括 性 的 描述 , 一 般 涉及 
这 个 人 的 各 种 属性 : 姓名 、 性 别 、 地 址 、 出 生 、 兴 趣 爱好 等 。 我 们 通过 浏览 某 个 人 的 传记 摘要 就 可 
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以 对 这 个 人 有 整体 上 的 认 知 。 

目前 ， 大 多 数 文本 摘要 方法 主要 是 基于 句子 抽取 ， 即 以 原文 中 的 句子 为 单位 进行 评估 与 抽取 。 
这 类 方法 易于 实现 且 能 最 大 程度 地 保证 摘要 句子 具有 良好 的 可 读 性 。 这 类 方法 的 两 个 关键 步骤 为 
一 是 对 文档 中 的 句子 进行 重要 性 计算 或 排序 , 二 是 筛选 出 重要 的 句子 组 合成 所 需 的 摘要 。 关 于 第 一 
个 步骤 ， 我 们 可 以 利用 基于 规则 的 方法 ， 通 过 句子 的 位 置 或 所 包含 的 线索 词 来 判定 句子 的 重要 性 ， 
也 可 以 采用 各 种 机 器 学 习 方 法 、 深 度 学 习 方法 ， 从 整体 上 对 句子 的 多 种 特征 进行 重要 性 的 分 类 、 回 
归 或 排序 。 对 于 第 二 个 步骤 ,， 则 基于 第 一 个 步骤 的 结果 ， 需 要 考虑 句子 之 间 的 相似 性 ， 避 免 选 择 重 
复 的 句子 (如 MMR 算法 ) ， 并 进一步 对 所 选择 的 摘要 句子 进行 连贯 性 排列 〈 如 自 底 向 上 法 ) ， 从 
而 获得 最 终 的 摘要 。 最 近 , 学 术 界 进一步 提出 了 基于 整数 线性 规划 的 方法 以 及 次 模 函 数 最 大 化 的 方 
法 ， 可 以 在 句子 选择 的 过 程 中 同时 考虑 句子 的 元 余 性 。 

而 压缩 式 文本 摘要 方法 则 不 同 , 它 考虑 对 句子 进行 压缩 , 以便 在 较 短 长 度 限制 下 让 摘要 涵盖 更 
多 的 内 容 。 这 里 代表 性 的 做 法 是 同时 进行 句子 选择 与 句子 压缩 ,能 够 获得 更 好 的 ROUGE 性 能 ( 注 : 
ROUGE 是 由 Lin 和 Hovy 提出 的 一 种 自动 摘要 评估 方法 ， 被 广泛 用 于 摘要 评测 任务 中 ) 。 另 外 
部 分 工作 还 利用 句子 融合 等 技术 来 对 已 有 句子 进行 转换 ， 获 取 新 的 摘要 内 容 。 

关于 进一步 的 生成 式 摘要 研究 , 就 是 通过 对 原文 档 进 行 语义 理解 , 将 原文 档 表示 为 深层 语义 形 
式 , 然后 分 析 获 得 摘要 的 深层 语义 表示 ,最 终 由 摘要 的 深层 语义 表示 来 生成 摘要 文本 。 其 中 的 一 种 
尝试 就 是 基于 抽象 意义 表示 (Abstract Meaning Representation, AMR) 发 展 出 生成 式 摘要 。 我 们 通 
过 这 类 方法 所 获得 的 摘要 句子 并 不 是 基于 原文 句子 , 而 是 利用 自然 语言 生成 技术 从 语义 表达 直接 生 
成 。 实际 上 ， 这 类 方法 相对 比较 复杂 ， 这 里 还 会 涉及 自然 语言 理解 与 自然 语言 生成 本 身 的 问题 , 具 
有 一 定 的 难度 。 


8.1.2 句子 压缩 与 融合 


句子 压缩 与 融合 技术 主要 用 于 文本 摘要 系统 中 , 以便 生成 信息 更 加 紧凑 的 摘要 , 使 得 我 们 获得 
的 摘要 效果 更 佳 。 具体 来 看 , 句子 压缩 技术 主要 是 基于 一 个 长 句子 来 生成 一 个 短 句 子 ， 且 保证 该 短 
句子 能 够 保留 长 句子 中 的 重要 信息 ， 即 重要 信息 基本 不 丢失 、 短 句子 保持 通顺 。 句子 融合 技术 则 将 
两 个 或 多 个 包含 重复 内 容 的 相关 句子 合并 起 来 获得 一 个 句子 。 这 里 根据 目的 的 不 同 可 以 分 为 两 类 ， 
一 类 句子 融合 是 只 保留 多 个 句子 中 的 共同 信息 , 而 过 滤 其 中 无 关 的 细节 信息 (类 似 于 集合 运算 中 的 
取 交 集运 算 ) ， 另 一 类 则 是 只 过 滤 多 个 句子 之 间 的 重复 内 容 〈 类 似 于 集合 运算 中 的 取 并 集运 算 ) 。 
关于 句子 融合 问题 ，Regina Barzilay 和 Kathleen McKeown 提出 了 一 条 流水 线 算 法 ， 主 要 涉及 共 
同 信息 识别 (Identification of Common Information) 、 融 合 网 格 计算 (Fusion Lattice Computation) 、 
网 格 线性 化 〈Lattice Linearization) 三 方面 。 另 外 ， 相 关 研 究 人 员 针 对 句子 融合 问题 提出 了 其 他 的 
方法 ,其 中 有 基于 结构 化 辨别 学 习 的 方法 基于 整数 线性 规划 的 方法 和 基于 图 的 最 短路 径 的 方法 等 。 


8.1.3 文本 复述 生成 


文本 复述 生成 技术 是 指 对 给 定 文本 进行 改写 , 以 生成 全 新 的 复述 文本 , 通常 输出 文本 与 输入 文 
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本 在 表达 上 有 所 不 同 ， 但 它们 所 表达 的 含义 基本 一 致 。 对 于 复杂 的 文本 复述 生成 而 言 ， 研 究 人 员 给 
出 了 基于 自然 语言 生成 的 方法 、 基 于 机 器 翻译 的 方法 与 基于 支点 (Pivot) 的 方法 等 。 其 中 ， 基 于 
自然 语言 生成 的 方法 是 模拟 人 类 的 思维 模式 , 先 对 输入 的 句子 进行 语义 理解 , 得 到 该 句子 的 语义 表 
zs, 再 基于 得 到 的 语义 表示 生成 新 的 句子 。 基 于 机 器 翻译 的 方法 是 将 文本 复述 生成 问题 看 成 是 单 语 
言 机 器 翻译 问题 , 并 通过 现 有 机 器 翻译 模型 为 给 定 文本 生成 复述 文本 。 基 于 支点 的 方法 则 是 将 当前 
语言 中 的 输入 文本 翻译 到 另 一 种 语言 (支点 ) ， 再 将 翻译 获得 的 文本 再 次 翻译 回 当 前 语言 。 

其 实 , 文本 复述 生成 技术 具有 广泛 的 应 用 前 景 ， 例 如 在 机 器 翻译 时 ， 我 们 可 以 利用 文本 复述 技 
术 对 复杂 输入 文本 进行 简化 处 理 ， 从 而 提升 整体 翻译 效果 。 在 儿童 教学 领域 ， 我们 可 以 利用 文本 复 
述 技术 将 星 涩 难 懂 的 文本 简化 处 理 为 儿童 容易 理解 的 文本 。 

然而 , 目前 能 够 为 给 定 文本 生成 具有 较 小 差异 的 复述 文本 , 但 在 文本 生成 的 质量 上 面临 着 一 些 


致 性 ， 又 要 做 到 该 文本 的 可 读 性 。 
82 意义 到 文本 的 生成 


在 计算 语言 学 领域 ， 大 多 数 研 究 人 员 都 遵循 的 语义 研究 原则 是 建立 在 “ 真 值 条 件 (Truth 
Condition) ”的 基础 上 ， 认 为 寻找 到 了 能 够 使 自然 语言 语句 成 真 的 条 件 ， 即 在 某 种 程度 上 刻画 了 自 
然 语 言 的 语义 。 

研究 人 员 在 真 值 假设 基础 上 普遍 采用 逻辑 的 方法 对 语义 进行 表征 ， 并 分 别 从 模型 论 (Model 
Theory) 和 证 明 论 (Proof Theory) 两 个 角度 进行 研究 ， 所 以 大 多 数 情况 下 这 种 类 型 的 语义 也 被 称 
为 逻辑 语义 。 

其 实 ， 意 义 到 文本 的 生成 和 组 合 语义 分 析 (Compositional Semantic Parsing) 密切 相关 ， 语义 
分 析 旨 在 对 线性 的 词 序 列 进行 自动 句法 语义 解析 并 得 到 其 真 值 条 件 。 由 于 我 们 在 分 析 过 程 中 遵循 了 
雷 格 的 组 合 原则 (Principle of Compositionality) ， 因 此 也 称 为 组 合 语义 分 析 ， 以 便 同 分 布 式 语义 
(Distributional Semantics) 相 区 别 。 作 为 自然 语言 处 理 中 的 一 个 核心 技术 , 组 合 语义 在 深度 语义 理 
解 方 面 起 着 关键 性 的 作用 ,在 智能 问答 、 机 器 翻译 等 多 个 自然 语言 处 理 核心 任务 中 有 着 良好 的 应 用 。 
从 问题 自身 的 定义 来 看 ， 其 实意 义 到 文本 的 生成 与 组 合 语义 分 析 是 一 对 互 逆 的 自然 语言 处 理 任 务 。 
接 下 来 ， 我 们 从 基于 深层 语法 的 文本 生成 、 基 于 同步 文法 的 文本 生成 两 方面 做 相关 介绍 。 


8.2.1 基于 深层 语法 的 文本 生成 


在 自然 语言 处 理 研究 的 早期 阶段 , 计算 机 语言 学 起 到 了 很 大 的 作用 , 因为 计算 语言 学 家 从 形式 
化 、 可 计算 两 方面 对 自然 语言 进行 了 建 模 , 并 提出 了 和 旨 在 解释 语言 运作 机 理 的 一 系列 句法 语义 模型 ， 
进而 依据 这 些 模 型 构建 了 自然 语言 处 理 系统 。 

而 深层 语法 复杂 度 较 高 ， 如 何 构造 对 错综复杂 的 语言 现象 具有 高 覆盖 度 (Broad Coverage) 的 
语法 规则 本 身 是 一 个 极 大 的 难题 以 上 研究 主要 是 对 原型 算法 进行 讨论 , 而 因为 真实 可 用 的 大 型 深 
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层 语法 当时 没有 得 到 很 好 的 开发 ， 以 上 研究 并 没有 呈现 极 具 代表 性 意义 的 经 验 结果 。 经 过 十 余年 的 
开发 ,研究 人 员 在 HPSG 理论 的 基础 上 开发 出 了 英语 资源 语法 (English Resource Grammar, ERG) 
这 是 一 个 比较 成 功 的 具有 较 高 覆盖 率 的 深层 语法 规则 系统 ， 而 围绕 ERG 所 展开 的 文本 生成 研究 也 
区 得 了 有 益 的 进展 。Carroll 和 Oepen 基于 ERG 和 真实 测试 数据 重新 讨论 了 基于 线 图 的 生成 技术 ， 
给 出 了 极 具 参考 意义 的 经 验 评估 。 另 外 , 他 们 提出 了 两 项 新 的 技术 来 改进 基于 合 一 语法 的 可 行 解 紧 
致 表示 (Compact Representation). 及 其 相关 解码 算法 一 一 选择 性 开 箱 CSelective Unpacking) , JU 
其 后 者 有 效 地 利用 了 判别 式 学 习 模型 来 改进 文本 生成 过 程 中 所 遇 到 的 歧义 消解 。 

相关 研究 在 二 十 世纪 八 九 十 年 代 取 得 了 丰硕 的 研究 成 果 , 一 系列 兼 具 语言 本 体 解释 力 和 可 计算 
性 的 语法 范式 (Grammar Formalism) 被 提出 ， 如 组 合 范畴 语法 (Combinatory Categorial Grammar, 
CCG) 、 中 心 语 驱动 的 短语 结构 语法 (Head-Driven Phrase-Structure Grammar，HPSG) 等 。 不 同 于 
目前 句法 分 析 所 主要 使 用 的 上 下 文 无 关 文 法 (Context-Free Grammar, CFG) ， 上 述 语 法 范式 具有 
超越 上 下 文 无 关 的 表达 能 力 ， 其 语法 推导 过 程 往往 更 复杂 , 蕴含 更 多 的 信息 ,而 这 些 信息 可 以 用 来 
做 更 透明 的 语义 分 析 ， 简 而 言 之 , 这 些 深层 语法 范式 能 够 更 好 地 支持 句法 语义 同步 的 语言 分 析 。 在 
深层 语法 的 支撑 下 , 通过 句法 语义 的 协同 推导 可 以 获取 自然 语言 的 组 合 语义 , 而 当 以 语义 表征 作为 
输入 ， 通 过 其 逆 过 程 可 以 完成 意义 到 文本 的 生成 。 

组 合 范畴 语法 是 一 个 广 受 自然 语言 处 理 领 域 学 者 关注 的 语法 范式 ， 其 设计 遵循 了 类 型 透明 
(Type Transparency) 的 原则 , 具有 精简 的 语法 语义 接口 , 常常 被 语义 分 析 和 文本 生成 模型 所 采用 。 
White 和 Baldridge 讨论 了 如 何 将 线 图 生成 法 与 组 合 范畴 语法 结合 ， 并 开发 了 开源 的 基于 组 合 范畴 
语法 的 句子 实现 (Realization) 工具 一 OpenCCG。White 又 与 其 他 学 者 联合 提出 了 一 些 进 一 步 改 

进 文本 生成 的 算法 。 


8.222 ”基于 同步 文法 的 文本 生成 


在 过 去 的 20 年 间 ， 统 计 句 法 分 析 与 统计 机 器 翻译 是 公认 的 两 个 取得 长 足 进步 的 自然 语言 处 理 
技术 。 除 了 从 成 熟 的 统计 句法 分 析 中 借鉴 成 功 经 验 〈 如 判别 式 消 歧 ) 之 外 ， 不 少 学 者 尝试 复 用 成 功 
的 机 器 翻译 模型 来 完成 文本 生成 .机 器 翻译 的 目标 是 将 某 种 自然 语言 语句 翻译 成 男 一 种 自然 语言 语 
句 , 并 尽量 保持 意义 不 变 ; 而 文本 生成 则 可 以 视 为 将 某 种 形式 的 语言 语句 翻译 成 一 种 自然 语言 语句 ， 
二 者 具有 极 强 的 可 比 性 。 

Chiang 提出 了 基于 层次 短语 的 翻译 模型 (Hierarchical Phrase-Based ModeD ， 其 核心 是 利用 同 
步 上 下 文 无 关 文 法 (Synchronous Context-Free Grammar) 来 协同 源 语言 语句 的 解析 和 目标 语言 语句 
的 生成 。 目 前 同步 文法 已 经 被 借鉴 到 文本 生成 的 研究 中 。Wong 与 Mooney 两 位 作者 讨论 了 两 种 形 
式 语言 用 于 表征 意义 : 第 一 种 是 用 于 指挥 机 器 人 动作 的 形式 语言 , 第 二 种 是 无 变量 的 数据 库 检索 语 
言 ; 而 Lu 5 Ng 则 针对 表达 能 力 极 强 的 类 型 表达 式 (Typed 和 -expression) 展开 研究 。 两 项 研 
究 的 一 个 共同 点 是 构建 形式 语言 的 基于 树 的 结构 , 再 将 相关 结构 与 待 生成 的 自然 语言 的 树 结构 建立 
一 致 性 对 应 ， 从 而 完成 文本 生成 任务 ; 另 一 个 共同 点 则 是 广泛 地 使 用 现 有 的 机 器 翻译 技术 (包括 开 
源 软件 等 ) 来 进行 文法 抽取 、 解 码 等 。 
国内 语言 学 界 与 计算 语言 学 界 针 对 自然 语言 语义 的 形式 化 研究 较 少 ,针对 汉语 进行 全 方面 组 合 
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语义 刻画 的 研究 目前 尚 属 空白 。 从 事 自然 语言 处 理 的 研究 人 员 也 较 少 涉猎 深层 语言 结构 处 理 问题 ， 
而 对 意义 到 文本 的 生成 研究 则 更 是 鲜 有 ， 很 少 能 见 到 相关 学 术 成 果 发 表 在 重要 学 术 会 议和 期 刊 上 。 


8.3 ”数据 到 文本 的 生成 


数据 到 文本 的 生成 技术 指 根据 给 定 的 数值 数据 生成 相关 文本 , 例如 基于 数值 数据 生成 天 气 预报 
文本 、 体 育 新 闻 、 财 经 报道 、 医 疗 报告 等 。 数 据 到 文本 的 生成 技术 具有 极 强 的 应 用 前 景 ， 目 前 该 领 
域 已 经 取得 了 很 大 的 研究 进展 , 业界 已 经 研制 出 面向 不 同 领域 和 应 用 的 多 个 生成 系统 。 针对 数据 到 
文本 的 生成 技术 研究 主要 集中 于 少数 几 个 单位 , 例如 英国 阿 伯 丁 大 学 、 英 国 布 莱 顿 大 学 、 爱 丁 堡 大 
学 等 ， 相 关 研究 成 果 主要 发 表 在 INLG、ENLG 等 专业 学 术 会 议 上 。 
英国 阿 伯 丁 大 学 的 Ehud Reiter 在 三 阶段 流水 线 模型 的 基础 上 提出 了 数据 到 文本 的 生成 系统 
的 一 般 框 架 ， 如 图 8-1 所 示 。 


Event Numeric Input Data 
Input Data 


Signal Analysis 


Patterns 


Data Interpretation 


Messages, 
Relations 


Document Planning 


Selected msgs, 
doc/rhet struct 


Microplanning and 
Realisation 


1 


Text 


图 8-1 数据 到 文本 的 生成 系统 的 一 般 框 架 


其 中 : 

信号 分 析 (Signal Analysis) 模块 的 输入 为 数值 数据 ， 通 过 利用 各 种 数据 分 析 方 法 检测 数据 中 

4 基本 模式 ， 输 出 离散 数据 模式 。 例 如 股票 数据 中 的 峰值 、 较 长 期 的 增长 趋势 等 。 该 模块 与 具体 应 
用 领域 和 数据 类 型 相关 ， 针 对 不 同 的 应 用 领域 与 数据 类 型 输出 的 数据 模式 是 不 同 的 。 

数据 阐释 (Data Interpretation). 模块 的 输入 为 基本 模式 与 事件 ， 通 过 对 基本 模式 和 输入 事件 进 

行 分 析 而 推断 出 更 加 复杂 和 抽象 的 消息 , 同时 推断 出 它们 之 间 的 关系 , 最 后 输出 高 层 消息 以 及 消息 

之 间 的 关系 。 例 如 针对 股票 数据 ， 如果 跌幅 超过 某 个 值 就 可 以 创建 一 条 消息 。 还 需要 检测 消息 之 间 
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的 关系 ， 例 如 因果 关系 、 时 序 关 系 等 。 值 得 说 明 的 是 ,数据 阐释 模块 并 不 是 在 所 有 文本 生成 系统 中 
都 需要 , 例如 在 天 气 预 报 文本 生成 系统 中 ,基本 的 模式 足以 满足 要 求 ， 因 此 并 不 需要 采用 数据 阐释 
模块 。 

文档 规划 (Document Planning) 模块 的 输入 为 消息 及 关系 ， 分 析 决 定 哪些 消息 和 关系 需要 在 文 
本 中 提 及 ， 同 时 要 确定 文本 的 结构 ， 最 后 输出 需要 提 及 的 消息 以 及 文档 结构 。 从 更 高 的 层次 来 说 ， 
信号 分 析 与 数据 痔 释 模 块 会 产生 大 量 的 消息 、 模 式 和 事件 ， 但 文本 通常 长 度 受 限 ， 只 能 描述 其 中 的 
一 部 分 ， 因 此 文档 规划 模块 必须 确定 文本 中 需要 说 明 的 消息 。 一 般 可 根据 专家 知识 、 消 息 的 重要 性 
及 新 颖 性 等 来 进行 选择 和 确定 。 当 然 , 该 模块 与 领域 也 相关 , 不 同 领域 中 对 消息 的 选择 所 考虑 的 因 
素 不 一 样 ， 文 档 的 结构 也 会 不 一 样 。 

微 规划 与 实现 (Microplanning and Realization) 模块 的 输入 为 选中 的 消息 及 结构 ， 通 过 自然 语 
言 生成 技术 输出 最 终 的 文本 。 该 模块 主要 涉及 对 句子 进行 规划 以 及 句子 的 实现 , 要 求 最 终 实现 的 句 
子 具有 正确 的 语法 、 时 态 和 拼写 ， 同 时 采用 准确 的 指 代表 达 。 

目前 , 业界 已 经 研制 了 面向 多 个 领域 的 数据 到 文本 的 生成 系统 , 这 些 系统 的 框架 与 上 述 一 般 杠 
架 并 无 大 的 差别 ， 部 分 系统 将 上 述 框架 中 的 两 个 模块 合并 为 一 个 模块 ， 或 者 省 去 其 中 一 个 模块 。 数 
据 到 文本 的 生成 技术 在 天 气 预报 领域 应 用 得 最 为 成 功 , 业界 研制 了 多 个 系统 对 天 气 预报 数据 进行 总 
结 ， 生 成 天 气 预 报 文本 。 例 如 ，FoG 系统 能 够 从 用 户 操作 过 的 数据 中 生成 双语 天 气 预报 文本 ; 
SumTime 系统 能 够 生成 海洋 天 气 预报 文本 ， 实 验 评测 表明 用 户 有 时 更 倾向 于 阅读 SumTime 所 生 
成 的 天 气 预报 ， 而 非 专家 撰写 的 天 气 预 报 。 此 外 ， 英 国 阿 伯 丁 大 学 的 Anja Belz 提出 了 概率 生成 
模型 进行 天 气 语 言 文本 的 生成 。Anja Belz 和 Eric Kow 进一步 基于 天 气 预报 数据 分 析 对 比 了 多 种 
数据 到 文本 的 生成 系统 , 结果 表明 采用 自动 化 程度 较 高 的 方法 并 不 会 降低 文本 生成 质量 , 同时 文本 
质量 的 自动 评价 方法 会 低估 基于 手工 规则 构建 的 系统 ， 而 高 估 自 动 化 系统 。 

由 于 数据 到 文本 的 生成 技术 的 巨大 应 用 价值 , 业界 成 立 了 多 家 从 事 文 本 生成 的 公司 , 能 够 为 多 
个 行业 基于 行业 数据 生成 行业 报告 或 新 闻 报 道 , 从 而 节省 大 量 的 人 力 。 比较 知名 的 公司 有 ARRIA, 
AI (Automated Insights) 、Narrative Science 等 。 其 中 ARRIA 是 一 家 总 部 设 在 欧洲 的 公司 ， 其 前 
称 为 Data2Text， 由 来 自 阿 伯 丁 大 学 的 两 名 教授 Ehud Reiter 与 Yaji Sripada 创办 ， 后 来 自然 语言 
生成 领域 的 另 一 位 科学 家 Robert Dale 也 加 入 了 该 公司 , 该 公司 的 核心 技术 为 ARRIA NLG 引擎 。 
AI 则 是 一 家 美国 人 工 智能 公司 ， 由 一 名 思科 的 前 工程 师 Robbie Allen 创办 ， 最 早 基于 体育 数据 生 
成 文本 摘要 ， 目 前 能 为 包括 金融 、 个 人 健身 、 商 业 智能 、 网 站 分 析 等 在 内 的 多 个 领域 的 数据 生成 文 
本 报告 ， 其 核心 技术 为 WordSmith NLG 引擎 。 目 前 ，AI 公司 已 经 为 美 联 社 等 多 家 单位 生成 数 亿 
篇 新 闻 报道 ， 造 成 了 巨大 的 影响 力 。Narrative Science 则 是 根据 美国 西北 大 学 的 一 个 研究 项 目 
StatsMonkey 发 展 而 来 的 ， 其 核心 技术 为 Quill NLG 引擎 。Forbes 是 Narrative Science 的 一 个 典 
型 客户 , 在 网 站 上 有 一 个 Narrative Science 专 页 , 全 部 文章 都 是 由 Narrative Science 自动 生成 的 。 
下 面 给 出 一 篇 自动 生成 的 样 例 新 闻 ， 如 图 8-2 所 示 。 
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mena for Alcoa Projected to Rise 


By Narrative Science 


*CommentNow + Fosow Comments 


Wall Street is high on Alcoa, expecting it to report earnings that are 
up 28% from a year ago when it reports its second-quarter earnings 
on Wednesday, July 8, 2015. The consensus estimate is 23 cents per 
share, up from earnings of 18 cents per share a year ago. 


The consensus estimate has fallen over the past three months, from 
27 cents. Analysts are expecting earnings of 95 cents per share for 
the fiscal year. Analysts look for revenue to decrease 1% 
year-over-year to $5.79 billion for the quarter, after being $5.84 
billion a year ago. For the year, revenue is projected to roll in at 
$23.63 billion. 


Revenue dropped year-over-year in the first quarter, ending a 
two-quarter streak of growing revenue. 


Alcoa is a global producer of aluminum. It is mainly engaged in the 
production and management of primary aluminum, fabricated 
aluminum, and alumina combined. It is actively involved in a range 
of industries, including technology, mining, smelting, and recycling. 
Kaiser Aluminum Corp., also in the metal mining industry, will 
report earnings on Wednesday, July 22, 2015. Analysts are expecting 
earnings of $1.19 per share for Kaiser Aluminum, up 13% from last 
year's earnings of $1.05 per share. Other companies in the metal 
mining industry with upcoming earnings release dates include: 
Noranda Aluminum Holding and Aluminum Corp. of China Limited. 


Earnings estimates provided by Zacks. 
图 8-2 Narrative Science. 自动 生成 的 样 例 新 闻 
接 下 来 ， 我 们 将 着 手 利 用 LSTM 模型 逐步 实现 文本 自动 生成 项 目 。 


8.4 文本 自动 生成 前 的 数据 准备 


首先 ， 我 们 将 讨论 用 于 文本 生成 的 数据 以 及 用 于 清理 数据 的 各 种 预 处 理 步骤 。 


8.4.1 数据 集 


首先 ,我 们 看 一 下 数据 集 的 样子 , 以 便当 看 到 生成 的 文本 时 , 根据 训练 数据 评估 它 是 否 有 意义 。 
我 们 将 从 网 站 https://www.cs.cmu.edu/-spok/grimmtmp/ E FA 100 本 书 。 这 是 格林 兄弟 的 一 套 书 
(从 德语 到 英语 ) 的 译文 ， 与 第 6 章 循环 神经 网 络 中 用 于 证 明 RNN 性 能 的 文本 相同 。 
首先 ， 使 用 脚本 自动 从 网 站 下 载 前 100 本 书 ， 代 码 如 下 : 


url = 'https://www.cs.cmu.edu/-spok/grimmtmp/"' 
# 如 果 有 必要 的 话 ， 创 建 一 个 目录 


dir name = 'stories" 
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if not os.path.exists(dir name): 
os.mkdir(dir name) 
def maybe download (filename): 
""" 如 果 文 件 不 存在 就 下 载 """ 
print('Downloading file: ', dir name* os.sep+filename) 
if not os.path.exists(dir nametos.septfilename): 
filename, = urlretrieve (url + filename, dir name*os.seprfilename) 
else: 
print('File ',filename, ' already exists.') 


return filename 
num files = 100 
filenames = [format (i, '03d')*'.txt' for i in range(1,101)] 
for fn in filenames: 


maybe download(fn) 


我 们 将 展示 从 两 个 随机 挑选 的 故事 中 提取 的 示例 文本 片段 。 
以 下 是 第 一 个 文本 片段 (0.01.tkxt) : 


The king's daughter began to cry, for she was afraid of the cold frog 
which she did not like to touch, and which was now to sleep in her 
pretty, clean little bed. But the king grew angry and said, "He who 
helped you when you were in trouble ought not afterwards to be 
despised by you." So she took hold of the frog with two fingers, 
carried him upstairs, and put him in a corner, but when she was in 
bed he crept to her and said, "I am tired, I want to sleep as well as 
you, lift me up or I will tell your father." At this she was terribly 
angry, and took him up and threw him with all her might against the 
wall. "Now, will you be quiet, odious frog," said she. But when he 
fell down he was no frog but a king's son with kind and beautiful 
eyes. He by her father's will was now her dear companion and 
husband. Then he told her how he had been bewitched by a wicked 
witch, and how no one could have delivered him from the well but 
herself, and that to-morrow they would go together into his kingdom. 


第 二 个 文本 片段 (0.02.txt) 如 下 : 


Next morning, when the loss was reported abroad, all the people cried 
loudly 'the queen is a man-eater. She must be judged, and the king 
was no longer able to restrain his councillors. Thereupon a trial was 
held, and as she could not answer, and defend herself, she was 
condemned to be burnt at the stake. The wood was got together, and 
when she was fast bound to the stake, and the fire began to burn 
round about her, the hard ice of pride melted, her heart was moved by 


repentance, and she thought 'if I could but confess before my death 
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that I opened the door.' Then her voice came back to her, and she 
cried out loudly 'yes, mary, I did it, and straight-way rain fell 
from the sky and extinguished the flames of fire, and a light broke 
forth above her, and the virgin mary descended with the two little 
sons by her side, and the new-born daughter in her arms. She spoke 
kindly to her, and said 'he who repents his sin and acknowledges it, 
is forgiven.' Then she gave her the three children, untied her 


tongue, and granted her happiness for her whole life. 


8.4.2” 预 处 理 数据 


在 预 处 理 方面 , 我 们 首先 使 所 有 文本 字母 变 为 小 写 , 并 将 文本 分 解 成 字符 n-gram, 其 中 n-2. 


请 考虑 以 下 句子 : 


The king was hunting in the forest. 


这 将 分 解 为 一 系列 n-gram， 如 下 所 示 : 


hr Wess Shir "hg," "Ow," Fas," si 


我 们 将 使 用 字符 级 别 的 双 字母 ， 因 为 与 使 用 单个 单词 相 比 ， 它 大 大 减少 了 词汇 量 。 此 外 ， 我 们 


将 使 用 特殊 标记 CUNK) 替换 在 语料库 中 出 现 少 于 10 次 的 所 有 双 字 母 组 ， 表 示 该 二 元 组 未 知 。 这 
有 助 于 我 们 进一步 减少 词汇 量 。 


85 实现 LSTM 


本 节 将 讨论 LSTM 实现 的 细节 。 虽 然 TensorFlow 中 有 子 库 已 经 实现 了 现成 的 LSTM， 但 我 们 


将 从 头 开 始 实现 这 将 非常 有 价值 ,因为 在 现实 世界 中 可 能 存在 无 法 直接 使 用 这 些 现成 组 件 的 情况 。 
此 代码 位 于 ch8 文件 夹 中 的 8 Istm for text_generation.ipynb 代码 文件 中 。 但 是 ， 我 们 还 将 包含 一 
个 范例 ， 其 中 将 展示 如 何 使 用 现 有 的 TensorFlow RNN API， 该 API 在 位 于 同一 文件 夹 中 的 
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| |stm word2vec mn apiipynb 代码 文件 中 。 在 这 里 ， 我 们 将 讨论 8_lstm_for text generation.ipynb 


文件 中 可 用 的 代码 。 


首先 ， 我 们 将 讨论 用 于 LSTM 的 超 参数 及 其 效果 。 其 次 ， 将 讨论 实现 LSTM 所 需 的 参数 〈 权 


重 值 和 偏差 ) 。 接 着 ， 将 讨论 如 何 使 用 这 些 参数 来 编写 LSTM 中 发 生 的 操作 。 之 后 ， 我 们 将 了 解 


如 何 逐 步 地 将 数据 提供 给 LSTM。 接 下 来 ， 将 讨论 如 何 使 用 梯度 裁剪 实现 参数 以 进行 优化 。 最 后 ， 
我 们 将 研究 如 何 使 用 学 习 到 的 模型 输出 预测 , 这 些 预 测 基本 上 是 二 元 组 , 它们 最 终 将 组 成 一 个 有 意 
义 的 故事 。 
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8.5.1 定义 超 参 数 


首先 ， 我 们 将 定义 LSTM 所 需要 的 一 些 超 参数 : 
# 隐藏 状态 变量 中 的 神经 元 数量 


num nodes = 128 
+ 一 个 batch 中 要 处 理 的 数据 点 数 
batch size = 64 


+ 在 优化 期 间 展开 的 时 间 步 数 
num unrollings = 50 
# 使 用 dropout 

dropout = 0.2 


以 下 给 出 了 每 个 超 参数 的 说 明 。 


© num nodes: 表示 细胞 (Cell) 记忆 状态 中 的 神经 元 数量 。 当 数据 充足 时 ， 增 加 细胞 记忆 
的 复杂 性 将 给 出 更 好 的 性 能 ， 与 此 同时 ， 它 减 慢 了 计算 速度 。 

© batch size: 这 是 一 步 处 理 的 数据 量 。 增 加 批量 的 大 小 有 助 于 提高 模型 的 性 能 ， 但 会 带 来 
更 高 的 内 存 要 求 。 

© num unrollings: 在 截断 BPTT 中 使 用 的 时 间 步 数 。num_ unrollings 步 数 越 高 ， 性 能 越 好 ， 
但 是 它 将 增加 内 存 需 求 和 计算 时 间 。 

© dropout: 使 用 dropout (正则 化 技术 ) 来 减少 模型 的 过 拟 合 ， 并 产生 更 好 的 结果 。dropout 
在 将 输入 、 输 出 、 状 态 变量 传递 到 它们 的 连续 操作 之 前 ， 随 机 地 从 输入 、 输 出 、 状 态 变 
量 中 删除 信息 。 这 在 学 习 过 程 中 产生 宛 余 特征 ， 从 而 导致 更 好 的 性 能 。 


852 ”定义 参数 


现在 我 们 将 为 LSTM 的 实际 参数 定义 TensorFlow 变量 。 
首先 ， 我们 将 定义 输入 门 参数 。 


9 dx 这 些 是 将 输入 连接 到 输入 门 的 权重 值 。 

€ im: 这 些 是 将 隐藏 状态 连接 到 输入 门 的 权重 值 。 

€ ib: 这 是 偏差 项 。 

这 里 我 们 将 定义 参数 : 

#Input gate (it) - 写 入 细胞 状态 的 记忆 量 

# 将 当前 输入 连接 到 输入 门 

ix-tf.Variable(tf.truncated normal([vocabulary size, m nodes],stddev-0.02)) 
# 将 先前 的 隐藏 状态 连接 到 输入 门 


im = tf.Variable(tf.truncated normal([num nodes, num nodes],stddev-0.02)) 


# 输入 门 的 偏差 
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ib = tf.Variable(tf.random uniform([1, num nodes],-0.02, 0.02)) 


类 似 的 ， 我 们 将 为 遗忘 门 、 候 选项 (用 于 存储 器 单元 数 的 计算 ) 和 输出 门 定义 权重 值 。 
遗忘 门 定义 如 下 : 

HESI (ft) - 从 细胞 状态 丢弃 多 少 记 忆 

# 将 当前 输入 连接 到 遗忘 门 

fx = tf.Variable(tf.truncated normal([vocabulary size, num nodes],stddev-0.02)) 


# 将 之 前 的 隐藏 状态 连接 到 遗忘 门 


fm = tf.Variable(tf.truncated normal([num nodes, num nodes],stddev-0.02)) 
# 遗忘 门 的 偏差 


fb = tf.Variable(tf.random uniform([1, num nodes],-0.02, 0.02)) 


候选 项 〈 用 于 计算 细胞 状态 ) 定义 如 下 : 


$Candidate value (c~t) - 用 于 计算 当前 的 细胞 状态 

# 将 当前 输入 连接 到 候选 项 

cx = tf.Variable(tf.truncated normal([vocabulary size, num nodes],stddev-0.02)) 
# 将 之 前 的 隐藏 状态 连接 到 候选 项 

cm = tf.Variable(tf.truncated normal([num nodes, num nodes],stddev-0.02)) 

# 候选 项 的 偏差 


cb = tf.Variable(tf.random uniform([1, num nodes],-0.02,0.02)) 


输出 门 定义 如 下 : 


# 输 出 门 - 从 细胞 状态 输出 多 少 记忆 

# 将 当前 输入 连接 到 输出 门 

ox = tf.Variable(tf.truncated normal([vocabulary size, num nodes], stddqev=0.02)) 
3C JE BU BA REOR S YE BEA HB] 

om = tf.Variable(tf.truncated normal([num nodes, num nodes],stddev-0.02)) 


# 输 出 门 的 偏差 


ob = tf.Variable(tf.random uniform([1, num nodes],-0.02,0.02)) 


接 下 来 ， 我 们 将 为 状态 和 输出 定义 变量 。 它 们 是 TensorFlow 变量 ， 表 示 LSTM 细胞 的 内 部 状 
态 和 外 部 隐藏 状态 。 在 定义 LSTM 计算 的 操作 时 ， 我 们 使 用 给 control_.ies(.…) 函 数 定义 这 些 操作 ， 
以 便 用 我 们 计算 的 最 新 细胞 状态 和 隐藏 状态 值 更 新 。 

# 变 量 在 展开 时 保存 状态 

# 隐 藏 状态 


saved output = tf .Variable (tf.zeros ([batch size, num nodes]),trainable-False, 


name-'train hidden') 

* 细胞 状态 

saved state = tf.Variable(tf.zeros([batch size, num nodes]),trainable-False, 
name-'train cell') 

# 验 证 阶段 的 相同 变量 


saved valid output = tf.Variable(tf.zeros([1, num nodes]),trainable-False, 
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name-'valid hidden') 

saved valid state = tf.Variable(tf.zeros([1, num nodes]),trainable-False, 
name-'valid cell') 

最 后 ， 我 们 将 定义 softmax 层 以 获得 实际 预测 : 

#Softmax 分 类 器 的 权重 值 和 偏差 


w — tf.Variable(tf.truncated normal([num nodes, 


vocabulary size],stddev-0.02)) 


b = tf.Variable(tf.random uniform([vocabulary size],-0.02,0.02)) 


注意 , 我 们 使 用 的 是 正 态 分 布 , 具 有 和 零 均值 和 小 的 标准 偏差 。 这 是 很 好 的 ， 因 为 我 们 的 模型 是 

一 个 简单 的 单个 LSTM 细胞 。 然 而 ， 当 网 络 变 得 更 深 时 (多 个 LSTM 细胞 堆 释 在 一 起 ) ， 需 要 更 

精细 化 的 初始 化 技术 。 一 种 这 样 的 初始 化 技术 被 称 为 Xavier 初始 化 ， 由 Glorot 和 Bengio 在 他 们 的 

论文 《Understanding the difficulty of training deep feedforward neural networks》 中 提出 (第 13 届 国 

际 人 工 智能 与 统计 会 议论 文集 ，2010 年 ) 。 这 可 以 作为 TensorFlow 中 的 变量 初始 化 器 使 用 
(https://www .tensorflow.org/api_docs/python/tf/contrib/layers/xavier_initializer) 。 


8.5.3 ”定义 LSTM 细胞 及 其 操作 


通过 定义 权重 值 和 偏差 可 以 在 LSTM 细胞 中 定义 操作 ， 这 些 操作 包括 以 下 内 容 : 
计算 输入 门 和 遗忘 门 产生 的 输出 。 

计算 内 部 细胞 状态 。 

计算 输出 门 产生 的 输出 。 

计算 外 部 隐藏 状态 。 


以 下 是 LSTM 细胞 的 实现 情况 : 


def lstm cell(i, o, state): 
input gate = tf.sigmoid(tf.matmul(i, ix) +tf.matmul (o, im) + ib) 
forget gate = tf.sigmoid(tf.matmul(i, fx) *tf.matmul(o, fm) + fb) 
update = tf.matmul(i, cx) + tf.matmul(o, cm) + cb 
state = forget gate * state + input gate * tf.tanh (update) 
output gate = tf.sigmoid(tf.matmul(i, ox) +tf.matmul (o, om) + ob) 
return output gate * tf.tanh(state), state 


8.5.4. 定义 输入 和 标签 


现在 我 们 将 定义 训练 输入 《展开 训练 ) 和 标签 。 训 练 输入 是 具有 num unrolling 批量 数据 〈 序 
列 ) 的 列表 ， 其 中 每 批 数据 具有 [batch_size，vocabulary_size] 大 小 : 


train inputs, train labels = [],[] 
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for ui in range (num unrollings): 


train inputs.append(tf.placeholder(tf.float32,shape-[batch size,vocabulary 


Size],name-'train inputs $d'$ui)) 


train labels.append(tf.placeholder(tf.float32,shape-[batch size,vocabulary 


size], name = 'train labels $d'$ui)) 


我 们 为 验证 输入 和 输出 定义 占 位 符 ， 这 些 占 位 符 将 用 于 计算 验证 困惑 度 (Perplexity) 。 不 过 ， 
在 这 里 我 们 不 使 用 输入 进行 与 验证 相关 的 计算 。 


* 验证 数据 占 位 符 


valid inputs = tf.placeholder(tf.float32, shape=[l,vocabulary size], 


name-'valid inputs') 


valid labels = tf.placeholder(tf.float32, shape-[l,vocabulary size],name = 
'valid labels') 


8.5.5 ”定义 处 理 序列 数据 所 需 的 序列 计算 


在 这 里 ， 我 们 将 以 循环 方式 计算 单 次 展开 训练 输入 所 产生 的 输出 。 我 们 还 将 使 用 Dropout C2 
考 Srivastava 和 Nitish 等 人 的 《Dropout: A Simple Way to Prevent Neural Networks from Overfitting) , 
Journal of Machine Learning Research 15 (2014) : 1929-1958) ， 因 为 这 样 可 以 稍微 提高 性 能 。 最 
后 ， 通 过 计算 的 所 有 隐藏 输出 值 来 为 训练 数据 计算 logit 值 : 


# 训 练 相关 的 推理 逻辑 ， 在 所 有 展开 训练 输入 中 保存 计算 的 状态 输出 用 于 计算 损失 
outputs = list() 


# 这 两 个 Python 变量 在 展开 的 每 个 步 长 中 迭代 更 新 

output = saved output 

state = saved state 

## 对 于 展开 中 的 所 有 步 数 ， 循 环 计 算 隐藏 状态 输出 ) 和 细胞 状态 (状态 ) 
for i in train inputs: 

output, state = lstm cell(i, output, state) 

output = tf.nn.dropout (output,keep prob-1.0-dropout) 

# 增 加 每 个 计算 的 输出 值 


outputs.append (output) 


VERAM 


logits = tf.matmul(tf.concat(axis-0, values-outputs), w) + b 
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接 下 来 , 在 计算 损失 之 前 , 我 们 必须 确保 输出 和 外 部 隐藏 状态 被 更 新 为 之 前 计算 的 最 新 值 。 这 
可 以 通过 添加 control_dependencies 条 件 并 将 logit 和 loss 计算 保持 在 以 下 条 件 来 实现 : 


with tf.control dependencies([saved output.assign (output), 
saved state.assign(state)]): 

t 分 类 器 

loss = tf.reduce mean( tf.nn.softmax cross 

entropy with logits v2(logits-logits, labels-tf.concat (axis-0, 


values-train labels))) 


我 们 还 定义 了 验证 数据 的 前 向 传播 逻辑 。 注 意 ， 我 们 不 会 在 验证 期 间 使 用 dropout， 仅 限于 训 
练 期 间 : 


# 验 证 阶段 相关 的 推理 逻辑 

## 计 算 验 证 数据 的 LSTM 细胞 输出 

valid output, valid state = lstm cell( valid inputs, saved valid output, 
saved valid state) 

# 计 算 1ogits 

valid logits = tf.nn.xw plus b(valid output, w, b) 


8.5.0 ”定义 优化 器 


本 节 将 定义 优化 过 程 。 我 们 将 使 用 一 种 称 为 Adam 的 先进 优化 器 , 它 是 迄今 为 止 最 好 的 基于 随 
机 梯度 的 优化 器 之 一 。 在 代码 中 ，gstep 是 一 个 变量 ， 用 于 随时 间 推 移 衰减 学 习 速 率 。 我 们 将 在 下 
一 节 讨 论 细 节 。 此 外 ， 我 们 将 使 用 梯度 裁剪 来 避免 梯度 爆炸 。 


# 每 次 gstep 增加 时 衰减 学 习 率 

tf learning rate = tf.train.exponential decay(0.001,gstep,decay steps=1, 
decay rate-0.5) 

* Adam 优化 器 和 梯度 裁剪 

optimizer = tf.train.AdamOptimizer(tf learning rate) 

gradients, v = zip(*optimizer.compute gradients (loss) ) 

gradients, _ = tf.clip by global norm(gradients, 5.0) 


optimizer = optimizer.apply gradients( zip(gradients, v)) 


8.5.7” 随 着 时 间 的 推移 衰减 学 习 率 


如 前 所 述 , 我 们 使 用 衰减 学 习 率 而 不 是 恒定 的 学 习 率 。 随 着 时 间 的 推移 衰减 学 习 率 是 深度 学 
习 中 用 于 实现 更 好 性 能 和 减少 过 度 拟 合 的 常用 技术 。 这 里 的 关键 思想 是 , 如 果 验 证 困惑 度 在 预定 数 
量 的 时 期 内 没有 减少 ， 就 降低 学 习 速率 (例如 降低 0.5 倍 ) 。 让 我 们 来 看 一 下 这 是 如 何 实现 的 。 

首先 定义 gstep 和 一 个 增加 gstep 的 操作 ， 名 为 mc_gstep， 代 码 如 下 : 


# 学 习 率 衰减 
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gstep = tf.Variable(0,trainable-False,name-'global step') 
# 运 行 此 操作 将 导致 gstep 的 值 增加 ， 从 而 降低 学 习 速率 


inc gstep = tf.assign(gstep, gstep+1) 


通过 这 个 定义 可 以 编写 一 些 简单 的 逻辑 在 验证 损失 没有 减少 的 情况 下 调用 ine gstep 操作 ， 代 
码 如 下 : 

# 学 习 率 衰减 相关 

# 如 果 验 证 数据 的 困惑 度 没有 持续 减少 ， 那 么 这 个 时 期 会 降低 学 习 率 


decay threshold = 5 
# 保持 计数 困惑 度 增加 


decay count = 0 


min perplexity = lel0 
# 学 习 率 衰减 逻辑 
def decay learning rate(session, v perplexity): 
global decay threshold, decay count, min perplexity 
# 衰 减 学 习 率 
if v perplexity < min perplexity: 
decay count = 0 
min perplexity- v perplexity 
else: 


decay count += 1 


if decay count »- decay threshold: 
print('\t Reducing learning rate') 
decay count - 0 
session.run(inc gstep) 


每 当 我 们 遇 到 新 的 最 小 验证 困惑 度 时 ,我们 都 会 更 新 min perplexity. JL^h, v perplexity 是 当 
前 的 验证 困惑 度 。 


8.5.8 进行 预测 


现在 我 们 可 以 简单 地 通过 对 之 前 计算 的 logits 应 用 softmax 激活 来 进行 预测 。 我 们 还 定义 了 验 
证 logits 的 预测 操作 : 


train prediction = tf.nn.softmax(logits) 

# 确 保 在 继续 下 一 迭代 之 前 更 新 状态 变量 

with tf.control dependencies([saved valid output.assign(valid output), 
saved valid state.assign(valid state)]): 


valid prediction = tf.nn.softmax(valid logits) 
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8.5.9 计算 困惑 度 GRA) 


我 们 在 第 7 章 “ 长 短期 记忆 网 络 ” 中 定义 了 困惑 度 。 回 顾 一 下 ， 考 虑 到 当前 的 n-gram， 困 惑 
度 是 LSTM 看 到 下 一 个 n-gram 的 意外 (Surprised) 程度 。 因 此 , 较 高 的 困惑 度 意味 着 较 差 的 性 能 
而 较 低 的 困惑 度 意味 着 较 好 的 性 能 : 


train perplexity without exp = tf.reduce sum(tf.concat(train labels,0)* 
-tf.log(tf.concat(train _ prediction, 0)+le-10))/(num unrollings*batch size) 

# 计算 验证 数据 困惑 度 

valid perplexity without exp = tf.reduce sum(valid labels*-tf. 


log (valid prediction+le-10)) 


8.5.10 2815 


我 们 使 用 状态 重 置 ， 因 为 正在 处 理 多 个 文档 。 因 此 ， 在 开始 处 理 新 文档 时 ， 我 们 将 隐藏 状态 重 
置 为 零 。 但是， 在 实践 中 ， 重 置 状 态 是 否 有 帮助 还 不 是 很 清楚 。 一 方面 ， 当 开始 阅读 新 故事 时 ， 将 
每 个 文档 开头 的 LSTM 细胞 的 记忆 或 者 说 内 存 ) 重 置 为 零 听 起 来 很 直观 ， 另 一 方面 ， 这 会 使 状 
态 变 量 偏向 零 。 我 们 鼓励 在 状态 重 置 和 状态 不 重 置 的 情况 下 运行 算法 ， 并 查看 哪 种 方法 表现 良好 。 

+ 重 置 训练 状态 


reset train state = tf.group(tf.assign(saved state, tf.zeros([batch size, 


num nodes])),tf.assign(saved output, tf.zeros([batch size, num nodes]))) 
# 重 置 验证 状态 


reset valid state = tf.group(tf.assign(saved valid state, tf.zeros([l, 
num nodes])), tf.assign(saved valid output, tf.zeros([1, num nodes]))) 


8.5.11 ” 贪 禁 采样 打破 重复 性 


这 是 一 种 非常 简单 的 技术 ， 我 们 可 以 随机 采样 LSTM 从 找到 的 n 个 最 佳 候选 项 中 抽取 下 一 个 
预测 。 


def sample (distribution): 
best inds = np.argsort (distribution) [-3:] 
best probs -distribution[best inds]/np.sum(distribution[best inds]) 
best idx = np.random.choice(best inds,p-best probs) 


return best idx 


8.5.12 ”生成 新 文本 


我 们 将 定义 生成 新 文本 所 需 的 占 位 符 、 变 量 和 操作 。 这 些 定义 与 我 们 对 训练 数据 所 做 的 类 似 。 
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置 操 作 。 最 后 ， 将 为 要 生 


首先 ， 将 为 状态 和 输出 定义 输入 占 位 符 和 变量 。 接 下 来 ， 将 定义 状态 的 了 
成 的 新 文本 定义 LSTM 细胞 计算 和 预测 : 


4 文本 生成 : batch 1， 不 展开 


test input = tf.placeholder(tf.float32, shape-[1, vocabulary size], name 


= 'test input!) 


# 测试 阶段 的 相同 变量 

saved test output =tf.Variable (tf.zeros([1，num nodes]), trainable-False, 
name-'test hidden') 

saved test state = tf.Variable(tf.zeros([1, num nodes]), 


trainable-False, name-'test cell') 


+ 计算 用 于 测试 数据 的 LsTM 细胞 输出 


test output, test state = lstm cell( test input, saved test output, 


saved test state) 


# 确保 在 继续 下 一 次 迭代 之 前 更 新 状态 变量 
with tf.control dependencies([saved test output.assign(test output), 
saved test state.assign(test state)]): 
test prediction - tf.nn.softmax(tf.nn.xw plus b(test output, w, b)) 
# 重 置 测试 状态 
reset test state = tf.group( 
saved test output.assign(tf.random normal([1,num nodes],stddev-0.05)), 
saved test state.assign(tf.random normal([1,num nodes],stddev-0.05))) 


8.5.43. ”示例 生成 的 文本 


让 我 们 看 一 下 第 26 步 学 习 后 LSTM 生成 的 一 些 数据 : 


the little said, am one of the glass, and the father had to this, there is at 
the dog 
would have should be stone with the money, hans that in his father the king was 


mine, then he did not know what a beautiful bird am UNK 


thereupon they said, klippines, 
my father he did not know when you have sold his wife, and 
said, the wedding was alone. then the money him a sunder them. 
so the shepherd 
was dead to his father, and that he had 
been he said, 
what, can you speak and said, he saw the window that he had to see him and comes, 


he fell into a son, and 
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went out and where that 

this all heads which he did better, he were was to standing by the handsome of 
the brother, said the wine of his strang the way to the faith, and said, you have 
promised her this, said, the little marlinchen by his father, i will not know how 
i will have you are, and they were to her father, i will now change man, and 

wept again, and the father, and the master loses. 


so the master the good brother was a couple in 


正如 你 所 看 到 的 ， 文 本 看 起 来 比 我 们 从 RNN 生成 的 要 好 得 多 。 事 实 上 ， 我 们 的 训练 语料库 里 
有 一 个 关于 农妇 和 奶牛 贩子 的 故事 。 但 是 ， 我 们 的 LSTM 不 只 是 输出 文本 ， 还 可 以 引入 新 的 东西 
比如 牧羊 人 〈shepherd) 、 婚 礼 (wedding) 和 和 葡萄酒 Cwine) 为 这 个 故事 情节 增添 更 多 的 色彩 。 接 
下 来 ， 我 们 将 研究 从 标准 LSTM 生成 的 文本 与 其 他 模型 〈 如 带 窥视 孔 连 接 和 GRU 的 LSTM) 生成 
的 文本 的 比较 。 


8.6 标准 LSTM 与 带 有 窥视 孔 连 接 
和 GRU 的 LSTM 的 比较 


本 节 将 在 文本 生成 任务 中 把 LSTM 与 带 有 窥视 孔 连 接 和 GRU 的 LSTM 进行 比较 。 这 将 有 助 于 
我 们 比较 不 同 模型 在 困惑 度 和 生成 文本 质量 方面 的 表现 。 实 现代 码 见 ch8 文件 夹 中 的 代码 文件 
8_lstm_extensions.ipynb。 


8.6.1 标准 LSTM 


首先 重申 标准 LSTM 的 组 件 。 我 们 不 会 重复 标准 LSTM 的 代码 , 因为 它 与 之 前 讨论 过 的 相同 。 
最 后 将 看 到 LSTM 生成 的 一 些 文本 。 

在 这 里 ， 我 们 将 重新 审视 标准 LSTM 的 结构 。 正 如 前 面 提 到 的 ，LSTM 包括 以 下 内 容 : 

输入 门 : 这 决定 了 当前 输入 被 写 入 细胞 状态 的 程度 。 


遗忘 门 : 这 决定 了 前 一 个 细胞 状态 写 入 当前 细胞 状态 的 程度 。 
输出 门 : 这 决定 了 从 细胞 状态 向 外 部 隐藏 状态 输出 的 信息 量 。 


下 面 将 说 明 如 何 将 这 些 门 、 输 入 、 细 胞 状态 和 外 部 隐藏 状态 中 的 每 一 个 连接 起 来 ， 如 图 8-3 所 
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图 8-3 单 体 LSTM 细胞 结构 的 示例 图 


下 面 展示 标准 LSTM 在 对 我 们 的 数据 集 进行 第 1 步 训 练 和 进行 26 步 训 练 后 生成 的 文本 。 
第 1 步 学 习 后 生成 的 文本 : 


den there here, the took his she was and will, and was are then the bad the baved 
the bailled then said the to he was nother had he baill the baillet not ther, and 
the to had to had to and said to then he had said to he had to the but, and to his 
that the baill to had so that his baid the bailled not the baad the was to her that 
to the to had the was and said the to his so he will to and the will her one there 
to the wher the was was not the to the wast her the baad, but the was was the to 
to the to had that the took, and the baad, and to to the hat to a said to the will 
to had said, and was he ward, and the bailled ther, and the to his he bad ther, 
and the to the wook the bave, and the took, and the was was to he was was the to 
the will that his his said to the baid the to the when that, and the to he bad the 
to the beather he was to he bad to he want, but the was was not not the baad and 
then him not the was not to the but his sook that he hat to and the was as the was 
not not not the 


第 26 步 学 习 后 生成 的 文本 : 


as and with the king, that they were there to be two-eyes and was 

to two-eyes, and so that is so that and that they said, "you strange to be still 
again. she was two-eyes, and where is some to her that, and the two 

brothers, when he was to drink, but the two brought that they said, "you will 


became to be still standing and the tree for they came and she had gone and the 
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king they were to the golden road, and thereupon they were two two-eyes," and they 
was apples the tree to her took at the tree, who was to dear the three beautiful 
bear struck the two the water to seek her to them, and two-eyes, "got to she was 
standing to strong was to door, and said, "they two belongs, and said, 

"wite and was the goat, the two godfather took them that they 

went to your son, and the two 

false her some, and the two 

false hearts with you, but the two brothers were two-eyes, and two-eyes, "the 
king, and said to him to him that the king with the tree for they can belong, that 


is the golden and said, the 


我 们 可 以 看 到 ， 在 第 26 步 学 习 后 与 第 1 步 学 习 后 相 比 ， 文 本 质量 有 了 相当 大 的 提高 。 此 外 ， 
本 文 看 起 来 比 我 们 在 第 6 章 中 使 用 循环 神经 网 络 的 示例 中 看 到 的 要 好 得 多 , 当时 用 100 个 故事 来 训 
练 模型 。 


8.6.2“ 门 控 循环 单元 


本 节 首 先 简要 描述 GRU 的 组 成 ， 然 后 是 实现 GRU 细胞 的 代码 , 最 后 看 一 下 GRU 细胞 生成 的 
一 些 文本 。 

1. 回顾 

下 面 复习 一 下 GRU。GRU 是 LSTM 操作 的 优雅 简化 形式 。GRU 对 LSTM 引入 了 两 种 不 同 的 
修改 ， 如 图 8-4 所 示 。 它 将 内 部 细胞 状态 和 外 部 隐藏 状态 连接 成 单个 状态 。 然 后 将 输入 门 和 遗忘 门 
合并 成 一 个 更 新 门 。 


h) 
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4 
E ^ 
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1z 
X 
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图 8-4 单个 GRU 细胞 结构 的 示例 图 


2. 相关 代码 
这 里 我 们 将 定义 一 个 GRU 细胞 : 
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def gru cell(i, 0): 
""" 创 建 一 个 CRU 细胞 . 
reset gate = tf.sigmoid(tf.matmul(i, rx) + tf.matmul(o, rh)+ rb) 

h tilde = tf.tanh(tf.matmul(i,hx) + tf.matmul(reset gate * o, hh) + hb) 


z = tf.sigmoid(tf.matmul(i,zx) + tf.matmul(o, zh) + zb) 
h 7 (1-z)*o + z*h tilde 


return h 


然后 像 之 前 在 示例 中 所 做 的 那样 调用 此 方法 : 


for i in train inputs: 
output = gru cell(i, output) 
output = tf.nn.dropout (output,keep prob-1.0-dropout) 
outputs.append (output) 


3. 示例 生成 的 文本 


下 面 展示 GRU 在 对 数据 集 进行 第 1 步 训练 和 进行 26 步 训练 后 生成 的 文本 。 
第 1 步 学 习 后 产生 的 文本 : 


ce that the said the said of and sher the said the aged king, when that hat have 
she head was ing-maid, which the bride, and such it, and the said thave heart with 
a was ing, how the said was of how said was ing-maid thad ther, and have him the 
there he said the shere, but the said, and which a deacest the which a ded mame 
her that ing the king's saided to her the wase was ing, the saider, to the 

dereess was ing-mall him and and wast he heart whe she went ther the was to the 
deserved her, she had had that the such it went in and and wast her the way to to 
the said, and the which the bride was into then her saw he had that the breart to 
here, and the king-maid, and broid, but to then the said, and the said to the said, 
the whene hered when the such a deace was to her, and have shere then she king, 
and the whice he had to her here the went the said, and when the such ther the was 
that that she was the such a deach was to him and then he heart the heaced when 


the such a king-meart and the w 


第 26 步 学 习 后 产生 的 文本 : 


over the road to the forest and was to take you down again. 


then they had so much, and said, the king's daughter to his room, and she had 
been into the room what had to the horse. the head at the king, the hearth, and 
they had given him, and that it was that her heart, and they had give him that they 
were some him to his son, and the king, that i have brought the 

king's son, and the maiden, and the king said, "the king's daughter to the forest, 
which had so much again, and they had been the heart, whereupon it in the paddock, 
and the prince was so that the king said, then they made himself, and that it was the 


master's daughter was in this the master loses away again. the king's head of 
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this, and she saw the father into him, and when he was to say, and the king said 
the maiden and said, "i have not his head and the king's house, and the man said 
the kingdom, and the old king's son to be over the door white, and that the king 


said, "if the king's head off her, and said, i have been cha 


我 们 可 以 看 到 ， 就 文本 质量 而 言 ， 与 标准 LSTM 相 比 ，GRU 没有 显示 出 显著 的 质量 改进 。 然 
而 ，GRU 的 输出 在 文本 中 似乎 比 LSTM 更 频繁 地 重复 使 用 单词 (例如 单词 King) 。 这 可 能 是 由 于 
模型 的 简化 与 标准 LSTM 中 的 两 个 状态 相 比 ， 仅 具有 单个 状态 ) 导致 长 期 记忆 受到 损害 。 


8.6.8 ” 带 宪 视 孔 连接 的 LSTM 

下 面 讨论 带 窥视 孔 连接 的 LSTM 以 及 它们 与 标准 LSTM 的 不 同 之 处 。 接 下 来 将 讨论 它们 的 实 
现 ， 然 后 使 用 带 窥视 孔 连接 的 LSTM 模型 生成 文本 。 

1. 回顾 


下 面 简单 看 一 下 带 有 罕 视 孔 连接 的 LSTM。 窥视 孔 本 质 上 是 一 种 门 (输入 门 、 遗 忘 门 和 输出 门 ) 
直接 查看 细胞 状态 的 方式 ， 而 不 是 等 待 外 部 隐藏 状态 〈 见 图 8-5) 。 


图 8-5 一 个 带 寞 视 孔 连接 的 LSTM 细胞 示例 图 


2. 相关 代码 


这 里 需要 注意 的 是 ， 保 持 对 角 线 的 妾 视 孔 连接 。 我 们 发 现 ， 对 于 这 种 语言 建 模 任务 ， 非 对 角 窥 
视 孔 连接 (由 Gers 和 Schmidhuber 在 他 们 的 论文 《Recurrent Nets that Time and Count, Neural 
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Networks) HREH) 对 性 能 的 不 利 影响 大 于 它们 提供 的 帮助 。 因 此 ， 我 们 采用 了 一 种 不 同 的 变 体 ， 
使 用 对 角 线 妾 视 孔 连接 ， 如 Sak, Senior 和 Beaufays 在 他 们 的 论文 《Long Short-Term. Memory 
Recurrent Neural Network Architectures for Large Scale Acoustic Modeling》 中 所 使 用 的 。 

以 下 是 代码 实现 : 


def lstm with peephole cell(i, o, state): 
input gate = tf.sigmoid(tf.matmul(i, ix) + state*ic *tf.matmul(o, im)+ib) 
forget gate-tf.sigmoid(tf.matmul(i, fx) + state*fc *tf.matmul(o, fm)-fb) 
update = tf.matmul(i, cx) + tf.matmul(o, cm) + cb 
State = forget gate * state + input gate * tf.tanh (update) 
output gate- tf.sigmoid(tf.matmul(i, ox) + state*oc *tf.matmul (o, om) *ob) 
return output gate * tf.tanh(state), state 


然后 将 为 每 个 batch 输入 调用 此 方法 ， 以 贯穿 所 有 时 间 步 骤 Cnum_unrollings 时 间 步 又 ) ， 如 
下 面 的 代码 所 示 : 


for i in train inputs: 
output, state = lstm with peephole cell(i, output, state) 
output = tf.nn.dropout (output,keep prob-1.0-dropout) 
outputs .append (output) 


3. 示例 生成 的 文本 


下 面 展示 带宽 视 孔 连接 的 LSTM 模型 在 对 数据 集 进行 第 1 步 训练 和 进行 26 步 训练 后 生成 的 文 
本 。 
第 1 步 学 习 后 产生 的 文本 : 


apotut whe wher he whe ther to was the wit was so that wit was she was ther that 
to the the to was was whe the che was the with he cou whe cas to the the that and the 
wou to the ther ther to was so to ther he cas the cas ther the that to the the he che 
whe the cou wer was ther he cout the the that and the was that the her he win the whe 
was whe was the whe cout the to wit to the the that ther the ther whe cou the cou the 
whe cou wer the whe whe cas to to whe cout he wou was ther that the cou ther he cou 
the was the cou was the whe cou was wit to the the the the the that whe whe was was 
the was she che whe whe cas was was was the wou whe wout the to shat the to so the 
to the che cou ther he cas to the he cthe he whe che the was she cou ther the to to 
ther ther to sher he was she whe whe whe cout he was so the the he cthe that and as 
ther the che was so the the her ther the whe the whe che cas the was she wou the wou 


whe the che whe che thas the he win to he cout to was the cou ther he whe 


第 26 步 学 习 后 产生 的 文本 : 


he was the king, and when they shall because took and said, and then the the 
the the maiden his back the king, and when the whole and said, then the the kinger, 
and when she was they the the that his been to the said to the whome, then so the 
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there, and when he said the the king's said, the said, "that they the that to the 
king's said the greaved the grand the king's was she her, the the king, and 

the the that had to the king's had that the that they were the said, "i came, 
and the gread them. the whole to the the that in the greed to they the king's said 
the the the that that the king, and that to the king's was to the kill, that they 
the king to the the took her. when the that that 

the that he was 

not the great the great of her they had not the king's was and when she wanted 
to his bring to they had took the was and with you shall of the said them, when 
she said, "then her, the the that her, and the the kind to his bring to said, as 
the that they the great the that the beather, the 


与 标准 LSTM EÈ GRU 生成 的 文本 相 比 , 带 有 窥视 孔 连 接 的 LSTM 产生 的 文本 似乎 在 语法 上 表 
现 较 差 。 接 下 来 让 我 们 看 看 每 种 模型 在 困惑 度 方面 进行 定量 比较 的 情况 。 


8.6.4 随 着 时 间 的 推移 训练 和 验证 困惑 度 


在 图 8-6 中 ,我 们 将 绘制 LSTM,\ 具 有 窥视 孔 连接 的 LSTM 和 GRU 随时 间 的 困惑 度 表现 情况 。 
首先 , 我 们 可 以 看 到 , 不 使 用 Dropout 时 可 以 明显 减少 训练 困惑 度 。 但是, 我们 不 应 该 得 出 Dropout 
会 对 性 能 产生 负面 影响 的 结论 ， 因 为 这 种 吸引 人 的 表现 是 由 于 过 度 拟 合 的 训练 数据 造成 的 。 从 图 
8-6 中 可 以 看 出 这 一 点 。 这 向 我 们 展示 了 Dropout 事实 上 有 助 于 我 们 完成 语言 生成 任务 。 


LSTM 各 类 变 体 的 训练 数据 的 困惑 度 表现 情况 


—*— LSTM + Dropout 

-+- LSTM 

—— LSTM (Peephole) + Dropout 
== GRU + Dropout 


LSTMA 2i 3E E ERR A t RRR 
—e— LSTM + Dropout 
=>- LSM 
2^ —— LSTM (Peephole) + Dropout 
i fN, m GRU + Dropout 


» 5 
时 间 步 (Time Step) 


8-6 截至 目前 ， 随 着 时 间 的 推移 ，LSTM 各 类 变 体 的 训练 数据 和 验证 数据 的 困惑 度 的 变化 情况 


236 | TensorFlow 与 自然 语言 处 理应 用 


此 外 ， 从 使 用 Dropout 的 所 有 方法 中 ， 我 们 可 以 看 到 LSTM 和 GRU 提供 了 很 好 的 性 能 。 一 个 令 
人 惊讶 的 观察 结果 是 ， 具 有 窥视 孔 连接 的 LSTM 产生 最 差 的 训练 困惑 和 稍微 差 的 验证 困惑 度 。 这 意味 
着 突 视 孔 连 接 不 会 为 解决 我 们 的 问题 而 增加 任何 价值 ， 而 是 通过 向 模型 引入 更 多 参数 来 使 优化 变 得 困 
难 。 具 体 表现 情况 如 图 8-6 所 示 。 读 者 也 可 以 在 代码 文件 plot_perplexity_over-time.ipynb 中 自行 查看 。 


目前 的 文献 表明 ,LSTM 和 GRU 之 间 没 有 明显 的 赢家 ,而 是 在 很 大 程度 上 取决 于 具体 的 


工作 任务 (IL KEmpirical Evaluation of Gated Recurrent Neural Networks on Sequence 
Modeling), Chung 4, NIPS 2014 深度 学 习 研 讨 会 ，2014 年 12 月 )。 


8.7 ”优化 LSTM 一 一 集束 搜索 


正如 我 们 前 面 看 到 的 ， 生 成 的 文本 可 以 被 改进 。 现 在 ， 让 我 们 看 看 在 第 7 章 “ 长 短期 记忆 ”中 
讨论 的 集束 搜索 是 否 有 助 于 提高 性 能 。 在 集束 搜索 中 ,我 们 将 向 前 看 若干 步 又 ( 称 为 集束 ) ， 并 获 
得 每 个 集束 具有 最 高 联合 概率 的 集束 (双边 型 序列 )。 联 合 概率 是 通过 在 集束 中 乘 以 每 个 预测 的 二 
元 模型 的 预测 概率 来 计算 的 。 注意， 这 是 一 个 贪 禁 搜 索 ， 意味 着 随 着 树 的 增长 , 我们 将 迭代 地 计算 
树 的 每 个 深度 的 最 佳 候 选项 。 应 该 注意 的 是 ， 这 种 搜索 不 会 导致 全 局 最 优 集 束 。 


8.71 实现 集束 搜索 


为 了 实现 集束 搜索 , 我 们 只 需要 改变 文本 生成 技术 ,训练 和 验证 操作 保持 不 变 , 但 是 代码 将 比 
我 们 之 前 看 到 的 文本 生成 操作 流程 更 复杂 。 相 关 代 码 见 ch8 文件 夹 中 的 代码 文件 
8_lstms_for_text_generation.ipynb 中 的 集束 搜索 部 分 。 

首先 ， 定 义 集束 长 度 (我 们 未 来 看 到 的 步骤 数 ) 和 beam neighbors (我 们 在 每 个 时 间 步 长 上 比 
较 的 候选 项 数量 ) : 


beam length = 5 
beam neighbors - 5 


我 们 将 定义 beam neighbors 的 占 位 符 数 ， 以 便 在 每 个 时 间 步 长 保持 最 佳 候 选项 : 


sample beam inputs = [tf.placeholder(tf.float32, shape-[1, vocabulary size]) 


for _ in range (beam neighbors)] 


接 下 来 ,定义 两 个 占 位 符 来 保存 发 现 的 最 佳 全 局 集束 索引 和 本 地 维护 的 最 佳 候 选集 束 索 引 , 我 
们 将 用 它们 进行 下 一 预测 阶段 的 预测 : 


best beam index = tf.placeholder (shape=None, dtype=tf.int32) 
best neighbor beam indices = tf.placeholder (shape-[beam neighbors], 


dtype-tf.int32) 
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然后 为 每 个 集束 候选 项 定义 状态 和 输出 变量 ， 就 像 我 们 之 前 为 单个 预测 所 做 的 那样 ; 


saved sample beam output = [tf.Variable(tf.zeros([1, num nodes])) for in 
range (beam neighbors)] 
saved sample beam state = [tf.Variable(tf.zeros([1, num nodes])) for in 


range (beam neighbors)] 


我 们 还 将 定义 状态 重 置 操作 : 


reset sample beam state = tf.group(*[saved sample beam output [vi]. 
assign(tf.zeros([1,num nodes])) for vi in range (beam neighbors)], 
*[saved sample beam state[vi].assign(tf.zeros([1, num nodes])) for 


vi in range (beam neighbors)]) 
此 外 ， 需 要 对 每 个 集束 的 单元 输出 和 预测 进行 计算 : 
+ 我 们 计算 每 个 集束 的 lstm cell 状态 和 输出 


sample beam outputs, sample beam states = [],[] 
for vi in range (beam neighbors): 
tmp output, tmp state = lstm cell( sample beam inputs[vi], 
saved sample beam output[vi], saved sample beam state[vi] ) 
sample beam outputs.append(tmp output) 
sample beam states.append(tmp state) 
# 对 于 给 定 的 一 组 集束 ， 输 出 大 小 为 beam_neighbors 的 预测 向 量 列表 ， 每 个 集束 具有 完整 词汇 表 的 预测 
sample beam predictions = [] 
for vi in range (beam neighbors): 
with tf.control dependencies([saved sample beam output [vi]. 
assign(sample beam outputs[vi]), saved sample beam state[vi]. 
assign(sample beam states[vi])]): 
sample beam predictions.append(tf.nn.softmax(tf.nn.xw plus b 


(sample beam outputs[vi], w, b))) 

接 下 来 ,定义 一 组 新 的 操作 ， 用 于 更 新 每 个 集束 的 状态 和 输出 变量 ， 并 在 每 个 步 又 中 找到 最 佳 
集束 候选 索引 。 这 对 于 每 个 步骤 都 很 重要 , 因为 最 佳 集束 候选 项 将 不 会 在 给 定 深度 处 从 每 棵 树 均 匀 
地 分 支出 来 。 图 8-7 显示 了 一 个 示例 。 我 们 将 使 用 粗 体 字 和 箭头 指示 最 佳 集束 候选 项 。 


the kng was was huning im the forest 


the kng was hunting in the forest 


king was hunting in the forest 


8-7 ”集束 搜索 说 明了 每 步 更 新 集束 状态 的 要 求 


the king was huning m the forest kng was hunting in the forest 
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正如 这 里 所 看 到 的 ,候选 项 不 是 被 均匀 采样 的 , 在 给 定 深度 处 总 是 有 一 个 来 自 子 树 (一 组 从 同 
一 点 开始 的 箭头 ) 的 候选 项 。 例如， 在 深度 2 处 ， 没 有 从 hunting 一 king 路 径 生成 的 候选 项 ， 因 此 
我 们 为 该 路 径 计算 的 状态 更 新 不 再 有 用 。 所 以 我 们 为 该 路 径 维护 的 状态 必须 蔡 换 为 king 一 was 路 
径 的 状态 更 新 , 因为 现在 有 两 条 路 径 共享 父 节点 king 一 was. 使 用 以 下 代码 对 状态 进行 此 类 替换 : 


Stacked beam outputs = tf.stack(saved sample beam output) 


stacked beam states = tf.stack(saved sample beam state) 


update sample beam state = tf.group( 
*[saved sample beam output[vi].assign(tf.gather nd(stacked beam outputs, 
[best neighbor beam indices[vi]])) for vi in range (beam neighbors)], 
*[saved sample beam state[vi].assign(tf.gather nd(stacked beam states, 
[best neighbor beam indices[vi]])) for vi in range (beam neighbors)]) 


8.72 ”使 用 集束 搜索 生成 文本 的 示例 


让 我 们 看 看 LSTM 是 如 何 通过 集束 搜索 执行 的 ， 它 看 起 来 比 以 前 更 好 : 


ugh, and said. then two paddock 

would certainly have 

brought it again. but the ground, but when the father said. the paressed the 
master, heard that i cannot. when the father said 

that it one of the second 

tired, and threatening she was away. the king's son paddock coming out, he said, 
i have not. have you 

not seen little red-stockings. the paddock says, 

no, i has not seen it. the king's son paddock crown where off his hand. the 
king's son paddock crown where he had before the paddock came, and the paddock cries, 
huhu. 

then thereupon he could not recognize her to that the paddock cries, huhu, huhu, 
huhu. but the golden came for the child, and when she spread out his little 

sister, had becomes out, and he came ball, and the 

paddock says, 

no, no, i have take you do. when he cried, the paddocked at last. the paressed 
the master wanted again. 

then the 

paddock comes out, thereupon the child inquires rosy cheeks, and the paddock 
cries, huhu. 


then thereupon he could not received 


与 LSTM 产生 的 文本 相 比 ， 该 文本 在 保持 文本 语法 一 致 性 的 同时 ， 似 乎 具有 更 多 的 变化 。 因 
此 ， 集 束 搜索 有 助 于 产生 质量 更 好 的 预测 ， 而 不 是 一 次 预测 一 个 词 。 此 外 ， 我 们 看 到 LSTM 结合 
故事 中 的 不 同 元 素 提出 了 有 趣 的 概念 。 但 是 ,在 一 些 情况 下 ,单词 组 合并 没有 多 大 意义 。 下 面 来 看 
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如 何 进一步 改进 我 们 的 LSTM。 
8.8 改进 LSTM 一 一 使 用 词 而 不 是 n-gram 生成 文本 


在 这 里 ， 我 们 将 讨论 改进 LSTM 的 一 些 方法 。 首 先 ， 我 们 将 讨论 如 果 使 用 One-Hot 编码 词 特 
征 ， 模 型 参数 的 数量 是 如 何 增长 的 。 这 促使 我 们 使 用 低 维 词 向 量 而 不 是 One-Hot 编码 向 量 。 然 后 ， 
我 们 将 讨论 与 使 用 bigrams 相 比 ， 如 何在 代码 中 使 用 词 向 量 来 生成 质量 更 高 的 文本 。 此 部 分 的 代码 
位 于 ch8 文件 夹 中 的 8_lstm_ word2vec.ipynb 文件 中 。 


8.8.1 维度 问题 


阻止 我 们 使 用 词 而 不 是 n-gram 作为 LSTM 输入 的 一 个 主要 限制 是 ， 这 将 极 大 地 增加 模型 中 的 
参数 数量 。 让 我 们 通过 一 个 例子 来 理解 这 一 点 。 考 虑 到 我 们 有 一 个 大 小 为 500 的 输入 和 一 个 大 小 为 
100 的 细胞 状态 。 这 将 导致 总 共 大 约 有 240000 个 参数 不 包括 softmax 层 ) ， 如 下 所 示 : 


=~ 4X(500X100+ 100X100+100) 7240000 
现在 我 们 将 输入 的 大 小 增加 到 1000， 参 数 的 总 数 大 约 是 440000， 参 数 个 数 如 下 : 
=~ 4X(1000X100+100X100+100) ~= 440 000 


正如 上 面 看 到 的 ， 对 于 输入 维度 增加 500 个 单位 ， 参 数 数量 增加 了 近 200 000。 这 不 仅 增加 了 
计算 复杂 度 ， 而 且 由 于 大 量 参数 的 存在 增加 了 过 度 拟 合 的 风险 。 因 此 , 我 们 需要 对 输入 的 维度 进行 
限制 。 


8.8.2 完善 Word2vec 


与 One-Hot 编码 相 比 ，Word2vec 不 仅 可 以 给 出 词 的 低 维 特征 表示 ， 而 且 可 以 给 出 语义 上 合 
的 特征 。 为 了 理解 这 一 点 ， 我 们 考虑 三 个 词 : cat. dog 和 volcano。 如 果 只 对 这 些 词 进行 One-Hot 
编码 ， 并 计算 它们 之 问 的 欧 几 里 得 距离 ， 将 如 下 : 


distance(cat,volcano) = distance(cat,dog) 


如 果 使 用 词 嵌入 方法 ， 将 得 到 如 下 表示 : 


distance(cat,volcano) »distance(cat,dog) 


我 们 希望 这 些 特征 能 够 代表 后 者 , 因为 相似 的 两 个 词 比 不 相似 的 两 个 词 具 有 更 小 的 距离 因此， 
该 模型 能 够 生成 质量 更 好 的 文本 。 
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8.8.3 使 用 Word2vec 生成 文本 


这 里 的 LSTM 比 标准 LSTM 复杂 得 多 ， 因 为 我 们 在 输入 和 LSTM 的 中 间 插 入 了 一 个 词 嵌 入 层 。 图 
8-8 描述 了 LSTM-Word2vec 的 整体 结构 ， 相 关 代码 见 ch8 文件 夹 中 的 8_ lstm_ word2vec.ipynb 文件 。 


输出 单词 (Wo, ) 


输入 单词 (W, ) 


图 8-8 一 种 基于 词 向 量 的 LSTM 语言 建 模 结构 


我 们 将 首先 使 用 连续 词 袋 (CBOW ) 模型 学 习 词 向 量 。 以 下 是 Word2vec 模型 学 到 的 一 些 最 佳 
关系 : 


与 will 最 接近 的 单词 : shall, can, must, may, 

与 of 最 接近 的 单词 : against, knocked, tongue, pulled, 
与 have 最 接近 的 单词 : marry, had, receive, give, 

与 i 最 接近 的 单词 : i, yourself, we, i., 


现在 可 以 将 词 向 量 而 不 是 One-Hot 编码 的 向 量 提供 给 LSTM 。 为 此 ， 我 们 合并 了 
t£nn.embedding lookup 函数 ， 代 码 如 下 : 


for ui in range (num unrollings): 
train inputs.append(tf.placeholder(tf.int32, shape-[batch size], 


name-'train inputs $d'$ui)) 
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train inputs embeds.append(tf.nn.embedding lookup (embeddings, 


train inputs [ui])) 


对 于 更 加 通用 的 语言 建 模 任务 ,我们 可 以 使 用 现 有 的 预 训练 词 向 量 。 通 过 从 具有 数 十 亿 
个 单词 的 文本 语料库 中 学 习 而 找到 一 些 词 向 量 ， 这 些 词 向 量 可 以 免费 下 载 和 使 用 。 在 这 
里 ， 我 们 将 列 出 几 个 可 用 的 词 向 量 的 存储 库 : 

e Word2vec: https://code.google.com/archive/p/word2vec/ 

e Pretrained GloVe word vectors: https://nlp.stanford.edu/projects/glove/ 


e fastText word vectors: https://github.com/facebookresearch/fastText/blob/master/pretrained- 


vectors.md 
但 是 ， 由 于 我 们 正在 使 用 非常 有 限 的 词汇 量 ， 因 此 将 学 习 自 己 的 词 向 量 。 如 果 我 们 尝试 
将 大 量 的 词 向 量 存储 库 用 于 几 千 个 单词 的 词汇 表 ， 那 将 是 一 大 笔 计算 开销 。 此 外 ， 由 于 
我 们 通过 文本 生成 来 生成 “故事 ”， 因 此 在 学 习 的 过 程 中 甚至 可 能 根本 不 会 使 用 某 些 独特 
的 单词 (例如 elves 和 water-nixie ). 


其 余 代 码 类 似 于 我 们 之 前 讨论 的 LSTM 细胞 计算 、 损 失 、 优 化 和 预测 。 但 是 ， 这 里 的 输入 大 
小 不 再 是 词汇 量 大 小 ， 而 是 词 向 量 大 小 。 


8.84 使 用 LSTM-Word2vec 和 集束 搜索 生成 文本 的 示例 
以 下 文本 由 LSTM-Word2vec 生成 〈 在 删除 元 余 空间 的 简单 预 处 理 步骤 之 后 ) ， 现 在 这 些 文字 
看 起 来 比较 靠 谱 了 : 


the devil has told her that the king who had told her how his brothers had been 
UNK , and had put the UNK in her arms . when she came to the king , and the king 


said , `` my dear wife , you shall be mine , i am UNK . the king said , i will not 
find it . '' the king said , `` i feel so UNK that the king 's son , and i will 
UNK herself . '' then the king said , `^ i feel as if it was UNK , as much as a 
reward . but the king said , i will not find it . '' the king said , `` i feel so 
UNK that the king 's daughter . the king said to her , `` my dear wife , you shall 
be mine , and i am UNK . the king said , i have not . '' and the king said , `` 


i feel as if it was so beautiful that they had ever UNK . when the king saw that 

the king said , `` i feel as if it was UNK for it . '' the king said , `` i feel 

as if it was UNK . then the king said , i will not find it . '' the king said , 
^ i feel so UNK , and 


可 以 看 到 这 里 没有 重复 的 文本 ， 就 像 我 们 在 标准 RNN 中 看 到 的 那样 ， 在 大 多 数 情况 下 这 些 文 
本 看 起 来 语法 正确 并 且 拼 写 错误 很 少 。 

至 此 ， 我 们 已 经 分 析 了 标准 LSTM、 带 有 帘 视 孔 连 接 的 LSTM、GRU、 带 有 集束 搜索 的 LSTM 
以 及 使 用 Word2vec 进行 集束 搜索 的 LSTM 来 生成 文本 的 情况 。 现 在 我 们 再 来 看 看 这 些 模型 之 间 的 
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定量 比较 情况 。 
8.8.5 ”困惑 度 随 着 时 间 推 移 的 变化 情况 


在 图 8-9 中 将 绘制 出 我 们 已 经 学 习 过 的 的 LSTM、 带 有 窥视 孔 连接 的 LSTM、GRU 和 使 用 
Word2vec 特性 的 LSTM 等 模型 的 困惑 度 在 时 间 上 的 变化 情况 。 为 了 更 加 有 意义 , 我 们 还 将 比较 其 
他 模型 : 使 用 词 向 量 和 Dropout 的 三 层 深 度 的 LSTM。 我 们 可 以 从 使 用 Dropout 的 方法 (减少 过 度 
拟 合 的 方法 ) 中 看 到 , 具有 Word2vec 特征 的 LSTM 显示 出 良好 的 结果 。 这 里 并 未 声明 具有 Word2vec 
的 LSTM， 仅 基于 具体 数值 表现 出 良好 的 性 能 ， 其 实 还 应 考虑 现实 问题 的 难度 。 在 Word2vec 设置 
中 ， 我 们 用 于 学 习 的 最 小 单位 是 单词 ， 与 使 用 bigram 的 其 他 模型 不 同 。 由 于 词汇 量 大 ， 与 bigram 
级 别 相 比 ， 单 词 级 别 生成 的 语言 更 具有 挑战 性 。 在 单词 级 别 上 与 基于 bigram 的 模型 实现 同样 的 训 
练 ， 在 困惑 度 方面 ， 单 词 级 别 的 表现 被 认为 更 佳 。 我 们 看 一 下 验证 的 困惑 度 ， 可 以 发 现 基于 词 向 量 
的 方法 表现 出 更 高 的 验证 困惑 度 。 这 是 可 以 理解 的 ， 因 为 词汇 量 大 ， 所 以 任务 更 具 挑 战 性 。 另 一 个 
有 意义 的 观察 是 比较 单 层 LSTM 和 深度 LSTM。 可 以 看 到 深度 LSTM 随 着 时 间 的 推移 显示 出 更 低 且 稳 
定 的 验证 困惑 度 ， 这 使 我 们 相信 深度 模型 通常 会 提供 更 好 的 效果 。 这 里 需要 注意 的 是 ， 我 们 没有 给 出 
使 用 集束 搜索 的 结果 ， 是 因为 集束 搜索 仅 影响 预测 ， 而 对 训练 困惑 度 没 有 影响 。 
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图 8-9 截至 目前 ， 随 着 时 间 的 推移 ，LSTM 各 类 变 体 的 训练 数据 和 验证 数据 的 困惑 度 的 变化 情况 
8.9 ”使 用 TensorFlow RNN API 


本 节 研 究 如 何 使 用 TensorFlow RNN API 使 代码 更 简单 -TensorFlow RNN API 包含 各 种 与 RNN 
相关 的 函数 ， 这 有 助 于 我 们 更 快 、 更 轻松 地 实现 RNN。 下 面 使 用 TensorFlow RNN API 实现 我 们 在 
前 面 讨论 的 相同 示例 。 然 而 ， 为 了 更 加 精彩 ， 我 们 将 实现 一 个 深层 LSTM 网 络 ， 其 中 有 三 层 我 们 
在 比较 中 讨论 过 。 完 整 代码 见 Chg 文件 夹 下 的 8_ Istm word2vec mn _apiipynb 文件 。 

首先 , 我 们 将 定义 占 位 符 ， 用 于 保存 输入 、 标 签 和 相应 的 词 向 量 。 我 们 忽略 了 与 验证 数据 相关 


的 计算 ， 如 下 : 
+ 训练 输入 数据 
train inputs, train labels = [],[] 
train labels ohe - [] 


# 定 义 展开 的 训练 输入 
for ui in range (num unrollings): 
train inputs.append(tf.placeholder (tf.int32, 
shape-[batch size],name-'train inputs $d'$ui)) 
train labels.append(tf.placeholder(tf.int32, shape-[batch size], 
name = 'train labels $d'$ui)) 
train labels ohe.append(tf.one hot(train labels[ui], 
vocabulary size)) 
+ 为 所 有 展开 的 内 容 定义 词 向 量 查询 操作 
+ 训练 输入 
train inputs embeds = [] 
for ui in range (num unrollings): 


# 我 们 使 用 expand. dims 添加 一 个 额外 的 数 轴 ， 因 为 后 面 的 LSTM 细胞 计算 需要 用 到 


train inputs embeds.append(tf.expand dims( tf.nn.embedding lookup 
(embeddings,train inputs[ui]),0)) 


此 后 ， 我 们 将 从 RNN API 的 LSTM 细胞 中 定义 LSTM 细胞 的 列表 : 
# 这 里 num_nodes 是 一 系列 隐藏 层 的 大 小 


cells = [tf.nn.rnn cell.LSTMCell(n) for n in num nodes] 


我 们 还 将 为 所 有 LSTM 细胞 定义 DropoutWrapper， 它 对 LSTM 细胞 的 输入 、 状 态 、 输 出 执行 
Dropout 操作 : 


+ 现在 为 每 一 个 LST 细胞 定义 一 个 DropoutWrapper 
dropout cells = [ 


rnn.DropoutWrapper(cell-lstm, input keep prob-1.0, 
output keep prob-1.0-dropout, state keep prob-1.0, 
variational recurrent-True, 
input size-tf.TensorShape([embeddings size]), 
dtype-tf.float32 ) for lstm in cells 
] 


提供 给 该 功能 的 参数 如 下 : 


© cell: 在 计算 中 使 用 的 RNN 细胞 类 型 。 
€ input keep prob: 执行 Dropout 时 保持 激活 的 输入 单位 数量 (0-1) . 
€ output keep prob: 执行 Dropout 时 要 保持 激活 的 输出 单位 数量 。 
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€ state keep prob: 执行 Dropout 时 要 保持 激活 的 细胞 状态 的 单位 数量 。 
€ variational recurrent: Gal 和 Ghahramani 4& «Theoretically Grounded Application of Dropout 
in Recurrent Neural Networks》 中 引入 的 RNN 的 Dropout 的 特殊 类 型 。 
然后 ， 我 们 将 定义 一 个 名 为 initial state 的 张 量 (用 零 初始 化 )， 它 将 包含 LSTM KEREY 
状态 《隐藏 状态 和 细胞 状态 ) : 


# LSTM 记忆 的 初始 状态 
initial state = stacked dropout cell.zero state(batch size, 
dtype-tf.Float32) 


通过 定义 LSTM 细胞 列表 ,我 们 现在 可 以 定义 一 个 封装 LSTM 细胞 列表 的 MultiRNNCell 对 象 ， 
代码 如 下 : 


+ 首先 定义 一 个 使 用 DropoutWrapper 的 MultiRNNCell 对 象 〈 用 于 训练 ) 
stacked dropout cell = tf.nn.rnn cell.MultiRNNCell (dropout_cells) 
+ 这 里 定义 一 个 不 使 用 Dropout 验证 和 测试 的 MultiRNNCell 的 对 象 

stacked cell = tf.nn.rnn cell.MultiRNNCell (cells) 


接 下 来 ， 我 们 将 使 用 t£nn.dynamic mn 函数 计算 LSTM 细胞 的 输出 ， 代 码 如 下 : 

+ 定义 LSTM 细胞 的 计算 训练 ) 

train outputs, initial state = tf.nn.dynamic rnn( 
stacked dropout cell, tf.concat(train inputs embeds,axis-0), 
time major-True, initial state-initial state) 

对 于 此 功能 ， 我 们 将 提供 几 个 参数 : 


€ cel: 用 于 计算 输出 的 序列 模型 的 类 型 。 在 例子 中 ， 这 是 之 前 定义 的 LSTM 细胞 。 

€ inputs: 这 些 是 LSTM 细胞 的 输入 。 输 入 需要 有 具有 [num unrollings batch size; 
embeddings_size] 的 形状 。 因 此 ， 我 们 拥有 该 张 量 中 所 有 时 间 步 长 的 所 有 批 处 理 数据 。 我 
们 将 这 种 类 型 的 数据 称 为 time major， 因 为 时 间 轴 是 第 0 轴 。 

© time major: 决定 了 输入 (输出) 张 量 的 前 两 个 定义 参数 表示 的 含义 。 

€ initial state: LSTM 需要 一 个 初始 状态 才能 开始 。 


通过 计算 LSTM 的 最 终 隐 藏 状态 和 细胞 状态 ， 下 面 定义 logits 〈 从 每 个 词 的 softmax 层 获得 的 
非 标准 化 分 数 ) 和 预测 〈 每 个 词 的 softmax 层 的 标准 化 分 数 ) : 


# 将 最 终 输 出 重 塑 为 [num unrollings*batch size, num nodes] 
final output = tf.reshape(train outputs, [-1,num nodes[-1]]) 
# 计算 logits 

logits = tf.matmul(final output, w) * b 

# 计算 预测 


train prediction = tf.nn.softmax(logits) 
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然后 使 logits 重 塑 为 time-major 类 型 的 数据 ， 这 对 于 将 要 使 用 的 损失 函数 是 必要 的 : 


# 将 logits 重 塑 为 time-major 
time major train logits-tf.reshape (logits, [num unrollings,batch size,-1]) 


创建 训练 标签 ， 以 便 用 来 计算 损失 函数 


time major train labels = tf.reshape(tf.concat(train labels,axis-0), 


[num unrollings,batch size]) 


我 们 将 确定 从 LSTM 和 softmax 层 计算 的 输出 与 实际 标签 之 间 的 损失 。 为 此 ， 我 们 将 使 
tf.contrib.seq2seq.sequence loss 函数 。 该 函数 广泛 用 于 机 器 翻译 任务 ， 以 计算 模型 输出 翻译 和 实 


R 


翻译 之 间 的 差异 ， 这 些 翻 译 是 词 序列 。 同 样 的 概念 可 以 扩展 到 我 们 的 问题 ， 因 为 我 们 基本 上 都 是 输 


出 一 系列 单词 : 


# 我 们 使 用 sequence-to-sequence 损失 函数 来 定义 损失 
# 计算 批 处 理 数据 的 平均 值 
# 我 们 得 到 了 序列 长 度 的 总 和 


loss = tf.contrib.seq2seq.sequence loss( 


logits = tf.transpose(time major train logits,[1,0,2]), 


targets = tf.transpose(time major train labels), 

weights- tf.ones([batch size, num unrollings], 
dtype-tf.float32), 

average across timesteps-False, 

average across batch-True 


) 


loss = tf.reduce sum(1loss) 


下 面 来 看 看 这 个 损失 函数 的 参数 。 


€ logits: 之 前 计算 的 非 标准 化 预测 分 数 。 此 函数 接收 按 以 下 形式 排序 的 logits: [batch size; 


num_unrollings，vocabulary_size]。 为 此 ， 我 们 使 用 tftranspose 函数 。 


€ targets: 批 处 理 或 输入 序列 的 实际 标签 。 这 些 在 [batch size，num_unrollings] 中 是 必需 的 。 


€ weights: 我 们 在 时 间 轴 和 batch 轴 上 给 予 每 个 位 置 的 权重 值 。 我 们 不 会 根据 它们 的 位 置 
区 分 和 输入， 所 以 将 所 有 位 置 设置 为 1。 


€ average across timesteps: 我 们 不 对 跨 时间 步 长 的 损失 求 平 均值 。 我 们 需要 跨 时间 步 长 的 


总 和 ， 因 此 这 里 将 其 设置 为 False。 
€ average across batch: 我 们 需要 对 批 处 理 的 损失 求 平 均值 ， 因 此 这 里 将 其 设置 为 True。 


接 下 来 定义 优化 器 ， 如 下 : 


来 


# 用 于 衰减 学 习 率 

gstep = tf.Variable(0, trainable-False) 

# 运行 此 操作 将 导致 gstep 值 的 增加 ， 从 而 降低 学 习 速 率 
inc gstep = tf.assign(gstep, gstep*1) 

* Adam 优化 器 和 梯度 裁剪 
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tf learning rate = tf.train.exponential decay(0.001,gstep,decay steps-1, 
decay rate-0.5) 

print('Defining optimizer') 

optimizer = tf.train.AdamOptimizer(tf learning rate) 

gradients, v = zip(*optimizer.compute gradients (loss)) 

gradients, _ = tf.clip by global norm(gradients, 5.0) 

optimizer = optimizer.apply gradients (zip (gradients, v)) 


inc gstep = tf.assign(gstep, gstep*l) 


定义 了 所 有 函数 后 ， 现 在 可 以 运行 代码 文 件 中 的 代码 了 。 
8.10 总 结 


在 本 章 中 ,我 们 首先 从 文本 自动 生成 的 三 个 方面 (文本 到 文本 的 生成 、 意 义 到 文本 的 生成 、 数 
据 到 文本 的 生成 ) 依次 进行 详细 解读 , 介绍 文本 自动 生成 三 个 方面 的 模型 研究 情况 ， 使 我 们 对 于 文 
本 自动 生成 的 基本 技术 路 线 有 了 更 清晰 的 认识 。 

其 次 ,在 LSTM 的 算法 实现 中 , 我 们 利用 格林 兄弟 的 故事 文本 训练 我 们 的 LSTM, 并 要 求 LSTM 
输出 一 个 全 新 的 故事 文本 。 

接着 ， 我 们 就 如 何 使 用 窥视 孔 连接 和 GRU 实现 LSTM 进行 了 技术 层面 的 讨论 。 然后， 我 们 在 
标准 LSTM 及 其 变 体 之 间 进 行 了 性 能 比较 。 我 们 看 到 LSTM 与 具有 窥视 孔 连接 和 GRU 的 LSTM 
相 比 表现 更 佳 。 我 们 意外 地 发 现 窥视 孔 连 接 实 际 上 损害 了 模型 性 能 而 不 是 有 助 于 语言 建 模 任务 。 
然后 ， 我 们 讨论 了 可 能 有 助 于 提高 LSTM 生成 质量 更 好 的 文本 的 各 种 优化 方法 。 第 一 个 优化 
方法 是 集束 搜索 。 我 们 研究 了 集束 搜索 的 实现 ， 并 介绍 了 如 何 逐 步 实现 它 。 然 后 ， 我 们 介绍 了 如 何 
使 用 词 向 量 方法 来 使 LSTM 输出 更 好 的 文本 。 

总 之 , LSTM 是 非常 强大 的 机 器 学 习 模 型 ， 可 以 捕获 长 期 和 短期 的 依赖 关系 。 此 外 ， 与 一 次 预 
测 相 比 ， 集 束 搜索 实际 上 有 助 于 产生 更 逼真 的 文本 短语 。 此 外 ,可 以 发 现 相 比 于 使 用 One-Hot 编码 
的 特征 表示 而 言 ， 使 用 词 向 量 作为 输入 将 会 获得 更 佳 的 性 能 。 

在 下 一 章 中 ， 我 们 将 讨论 另 一 个 涉及 LSTM 的 NLP 任务 : 生成 图 像 字幕 。 


利用 LSTM 实现 图 像 字幕 自动 生成 


在 上 一 章 中 ,我 们 了 解 了 如 何 使 用 LSTM 生成 文本 。 本 章 将 使 用 LSTM 来 解决 更 复杂 的 任务 
为 给 定 图 像 生成 合适 的 字幕。 图 像 到 文本 的 生成 技术 是 指 根据 给 定 的 图 像 生 成 描述 该 图 像 内 容 的 自 
然 语言 文本 , 例如 新 闻 图 像 附带 的 标题 、 医 学 图 像 附带 的 说 明 、 儿 童 教育 中 常见 的 看 图 说 话 以 及 用 
户 在 微 博 等 互联 网 应 用 中 上 传 图 片 时 提供 的 说 明文 字 。 依 据 所 生成 自然 语言 文本 的 详细 程度 及 长 度 
的 不 同 , 这 项 任务 可 以 分 为 图 像 标题 自动 生成 和 图 像 说 明文 字 自动 生成 。 前 者 需要 根据 应 用 场景 突 
出 图 像 的 核心 内 容 , 例如 为 新 闻 图 片 生成 的 标题 需要 突出 与 图 像 内 容 密切 关联 的 新 闻 事件 , 并 在 表 
达 方式 上 求 新 以 吸引 读者 的 眼球 ; 而 后 者 通常 需要 详细 描述 图 像 的 主要 内 容 , 例如 为 有 视力 障碍 的 
人 提供 简洁 翔实 的 图 片 说 明 , 力求 将 图 片 的 内 容 全 面 且 有 条 理 的 陈述 出 来 ,而 在 具体 表达 方式 上 并 
没有 具体 的 要 求 。 

对 于 图 像 到 文本 的 自动 生成 这 一 任务 , 人 类 可 以 毫 不 费力 地 理解 图 像 内 容 , 并 按 具体 需求 以 自 
然 语言 句子 的 形式 表述 出 来 ， 然 而 对 于 计算 机 而 言 ， 则 是 一 种 新 兴 的 深度 学 习 应 用 ， 需 要 综合 运用 
图 像 处 理 、 计 算 机 视觉 和 自然 语言 处 理 等 几 大 领域 的 研究 成 果 。 这 个 任务 更 加 复杂 ， 因 为 解决 它 涉 
及 多 个 子 任务 ， 例 如 训练 /使 用 CNN 来 生成 图 像 的 编码 向 量 、 学 习 词 向 量 以 及 训练 LSTM 来 生成 
字幕 。 因 此 ， 这 并 不 像 我 们 第 8 章 提 到 的 文本 生成 任务 那样 简单 ,我 们 只 是 以 序列 的 方式 输入 文本 
和 输出 文本 。 作 为 一 项 标志 性 的 交叉 领域 研究 任务 , 图 像 到 文本 的 自动 生成 吸引 着 来 自 不 同 领域 研 
究 者 的 关注 。 

自动 生成 图 像 字幕 或 图 像 标 注 具 有 广泛 的 应 用 。 最 突出 的 应 用 之 一 是 搜索 引擎 中 的 图 像 检索 。 
自动 生成 图 像 字幕 可 用 于 根据 用 户 的 请 求 检 索 属 于 特定 概念 的 所 有 图 像 〈 例 如 狗 ) 。 另 一 个 应 用 是 
在 社交 媒体 中 ， 当 用 户 上 传 图 像 时 ， 图 像 被 自动 字幕 化 ， 使 得 用 户 可 以 细 化 生成 的 字幕 或 按 原样 发 
布 。 


本 章 首 先 回顾 图 像 字幕 的 主要 发 展 历程 及 其 在 研究 和 行业 部 署 中 的 影响 。 其 次 , 介绍 研究 人 员 
针对 图 像 字 幕 而 开发 的 两 个 主要 基于 深度 学 习 的 方案 。 然 后 , 对 近年 来 从 图 像 生成 字幕 的 研究 进行 
综述 。 最 后 ， 给 出 一 个 图 像 字幕 案例 详解 。 我 们 前 期 将 处 理 来 自 数据 集 CMS-COCOO. 的 图 像 以 获 
得 具有 预 训练 卷 积 神经 网 络 (CNN) 的 图 像 编码 ，CNN 是 我 们 所 熟知 的 擅 于 处 理 图 像 分 类 的 神经 
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网 络 。CNN 将 采用 固定 大 小 的 图 像 作为 输入 并 输出 图 像 所 属 的 类 别 〈 例 如 狗 、 猫 、 老 虎 、 汽 车 和 
树 等 ) 。 使 用 该 CNN 可 以 获得 描述 图 像 的 压缩 编码 向 量 。 然 后 ， 我 们 将 处 理 图 像 的 字幕 ， 以 学 习 
在 字幕 中 找到 的 词 向 量 。 我 们 还 可 以 使 用 预 训练 的 词 向 量 来 完成 此 任务 。 最 终 ,， 在 获得 图 像 和 词 编 
码 后 ， 我 们 将 它们 输入 LSTM 并 在 图 像 及 其 各 自 的 字幕 上 进行 训练 ， 以 便 为 一 组 未 知 的 图 像 〈 验 
证 集 ) 生成 对 应 的 字幕 。 


9.1 简要 介绍 


除了 作为 对 话 系统 不 可 或 缺 的 组 成 部 分 外 , 自然 语言 生成 (NaturalLanguageGeneration, NLG) 
还 在 文本 摘要 、 机 器 翻译 、 图 像 和 视频 字幕 以 及 其 他 自然 语言 处 理 (NLP) 应 用 中 发 挥 着 关键 作用 。 
本 章 不 是 对 一 般 的 NLG 技术 进行 全 面 的 分 析 ， 而 是 在 一 个 特殊 的 应 用 中 对 应 用 范围 进行 了 限制 ， 
从 而 完成 图 像 字幕 自动 生成 任务 。 由 于 近年 来 深度 学 习 的 进步 ，NLG 任务 也 取得 了 巨大 进展 。 


92 ”发展 背景 


长 期 以 来 , 人们 一 直 认 为 总 有 一 天 机 器 可 以 拥有 和 人 类 一 样 的 智能 去 理解 整个 视觉 的 世界 。 由 
于 深度 学 习 的 进步 〈Hinton ^$, 2012; Dahl 等 ，2011; Deng 和 Yu, 2014) ， 现 在 研究 人 员 可 以 
构建 非常 深 的 卷 积 神经 网 络 (CNN) ， 完 成 大 规模 图 像 分 类 等 任务 ， 并 达到 令 人 印象 深刻 的 低 错 
误 率 (Krizhevsky 等 ，2012; He 等 ，2015) 。 在 这 些 任务 中 ， 为 了 训练 用 于 预测 给 定 图 像 类 别 的 
模型 , 可 以 首先 用 来 自 预定 义 类 别 集合 的 类 别 标签 对 训练 集合 中 的 每 个 图 像 进行 注释 。 通过 这 种 完 
全 监督 的 训练 ， 计 算 机 可 以 学 习 如 何 对 图 像 进行 分 类 。 

当 我 们 希望 计算 机 理解 复杂 场景 时 ,这 种 情况 可 能 变 得 更 具 挑战 性 。 图像 字幕 自动 生成 就 是 这 
样 的 任务 之 一 。 而 挑战 来 自 两 个 方面 。 首 先 ， 为 了 生成 一 个 语义 有 意义 、 句 法 流畅 的 字幕 ， 系 统 需 
要 检测 图 像 中 显著 的 语义 概念 ， 理解 它们 之 间 的 关系 ， 并 对 图 像 的 整体 内 容 进 行 连贯 的 描述 ， 这 涉 
及 对 象 识别 之 外 的 语言 和 常识 知识 的 建 模 工 作 。 此 外 ,由 于 图 像 中 场景 的 复杂 性 ， 很 难 用 简单 的 类 
别 属性 来 表示 它们 之 问 颗 粒度 的 细微 差别 。 而 关于 训练 图 像 字 幕 模型 的 监督 工作 是 为 了 用 自然 语言 
对 图 像 的 内 容 进 行 全 面 描述 , 由 于 图 像 中 的 子 区域 和 描述 中 的 词 之 间 缺 乏 细 粒 度 的 对 应 ， 有 时 这 种 
描述 是 模糊 的 。 

此 外 ,图 像 字幕 自动 生成 与 图 像 分 类 任务 不 同 。 在 图 像 分 类 任务 中 , 将 图 像 与 基础 事实 进行 比 
较 之 后 , 我 们 可 以 很 容易 地 判断 分 类 的 输出 是 正确 的 还 是 错误 的 , 且 有 多 种 有 效 的 方式 来 描述 图 像 
内 容 。 而 我 们 要 判断 生成 的 字幕 是 否 正确 以 及 达到 何 种 程度 ， 则 很 难得 出 结论 。 在 实践 中 ,通常 
人 工 的 方法 来 判断 给 定 图 像 字幕 的 质量 。 然 而 ， 由 于 人 工 评 价 成 本 高 、 耗 时 长 ， 人 们 提出 了 许 
动 化 的 度量 标准 ， 这 些 度量 标准 主要 用 于 加 速 系统 的 开发 周期 。 
早期 的 图 像 字幕 处 理 方 法 大 致 可 以 分 为 两 大 类 。 一 类 是 基于 模板 匹配 的 〈Farhadi 等 ，2010; 
Kulkarni 等 ，2015) 方法 ， 这 类 方法 从 检测 图 像 中 的 对 象 、 动 作 、 场 景 和 属性 开始 ， 然 后 将 它们 填 
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充 到 手工 设计 的 刚性 的 句子 模板 中 。 这 类 方法 产生 的 字幕 并 不 总 是 流畅 和 富有 表现 力 的 。 另 一 类 是 
基于 检索 的 方法 , 该 方法 首先 从 大 型 数据 库 中 选择 一 组 视觉 上 相似 的 图 像 , 然后 将 检索 到 的 图 像 的 
字幕 转换 为 适合 查询 的 图 像 (Hodosh 等 ，2013; Ordonez 等 ，2011) 。 基 于 查询 图 像 的 内 容 而 修 
改 单词 的 灵活 性 较 小 ， 因 为 它们 直接 依赖 于 训练 图 像 的 字幕 ， 并 且 不 能 生成 新 的 字幕 。 
利用 深度 神经 网 络 就 可 以 通过 生成 流畅 和 富有 表现 力 的 字幕 来 解决 上 面 遇 到 的 这 两 个 问题 , 这 
些 字幕 也 可 以 推广 到 训练 集 以 外 的 地 方 。 特 别 是 最 近 在 图 像 分 类 中 使 用 神经 网 络 的 成 功 
(Krizhevsky 等 ，2012; He 等 ，2015) 和 物体 检测 〈Girshick，2015) 激发 了 人 们 对 使 用 神经 网 络 
进行 视觉 字幕 的 浓厚 兴趣 。 


9.3 利用 深度 学 习 框 架 从 图 像 中 生成 字幕 


9.3.1 End-to-End 框架 


最 近 ， 由 于 机 器 翻译 中 序列 到 序列 (Sequence-to-Sequence) 学 习 的 成 功 (Sutskever $, 2014; 

Bahdanau 等 ，2015) ， 研 究 人 员 研 究 了 用 于 图 像 字幕 的 端 到 端 〈End-to-End) 的 编码 器 -解码 器 
(Encoder-Decoder) 框架 (Vinyals ^5, 2015; Karpathy 和 Fei-Fei, 2015; Fang 等 ，2015; Devlin 
等 ，2015; Chen 和 Zitnick, 2015) 。 图 9-1 展示 了 一 个 典型 的 基于 编码 器 -解码 器 的 图 像 字幕 生成 
系统 CVinyals 等 ，2015) 。 在 该 框架 中 ， 首 先 通过 全 局 视觉 特征 向 量 对 原始 图 像 进行 编码 ， 该 向 
量 通过 深度 CNN 表示 图 像 的 整体 语义 信息 。 如 图 9-2 所 示 ，CNN 由 几 个 卷 积 层 、 最 大 池 化 、 响 应 
归 一 化 和 完全 连接 层 组 成 。 在 这 里 ，CNN 在 大 型 ImageNet 数据 集 上 接受 了 1000 个 类 别 的 图 像 分 
类 任务 的 训练 (Deng 等 ，2009) 。 该 AlexNet 的 最 后 一 层 包含 1000 个 节点 ， 每 个 节点 对 应 一 个 类 
别 。 同 时 ， 抽 取 倒 数 第 二 个 完全 连接 的 密集 层 作为 全 局 视觉 特征 向 量 ， 表 示 整 个 图 像 的 语义 内 容 。 
给 定 一 个 原始 图 像 ， 第 二 层 到 最 后 一 层 完 全 连接 的 激活 值 通常 被 抽取 为 全 局 视觉 特征 向 量 。 这 种 结 
构 对 于 大 规模 的 图 像 分 类 已 经 非常 成 功 , 并 且 所 学 习 的 特征 已 经 显示 出 可 以 应 用 于 各 种 各 样 的 视觉 
任务 中 。 
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图 9-1 使 用 CNN 和 RNN 对 图 像 进行 端 到 端 训 练 的 自然 语言 生成 (He 和 Deng, 2017) 
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图 9-2 深度 CNN (例如 AlexNeO 被 用 作 图 像 字幕 系统 的 前 端 (Front-end) 编码 器 
(He 和 Deng, 2017) 


我 们 一 旦 提取 了 全 局 视觉 向 量 ， 就 将 其 输入 到 另 一 个 基于 循环 神经 网 络 (RNN ) 的 解码 器 以 
生成 字幕 ， 如 图 9-3 所 示 。 在 初始 步骤 中 ， 表 示 图 像 总 体 语义 的 全 局 视觉 向 量 被 输入 RNN 中 以 便 
在 第 一 步 计 算 隐 藏 层 。 同 时 ， 在 第 一 步 中 ， 使 用 句子 开始 符号 <s> 作 为 对 隐藏 层 的 输入 。 然 后 ， 从 
隐藏 层 生成 第 一 个 单词 。 继 续 此 过 程 , 在 上 一 步 中 生成 的 单词 将 成 为 下 一 步 隐藏 层 的 输入 ， 以 生成 
下 一 个 单词 。 这 个 生成 过 程 一 直 进 行 到 生成 句 尾 符号 </s> 为 止 。 在 实践 中 ， 我 们 经 常 使 用 RNN 的 
两 个 变 体 : 长 短期 记忆 网 络 (LSTM，Hochreiter 和 Schmidhuber, 1997) 和 门 控 循环 单元 (GRU， 
Chung 等 ，2015) ， 两 者 都 被 证 明 能 够 有 效 地 训练 和 捕获 长 期 语言 的 依赖 性 CBahdanau 等 ，2015; 
Chung 等 ，2015) ， 而 且 在 行为 识别 任务 中 得 到 了 成 功 的 应 用 (Varior 等 ，2016) . 
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图 9-3 RNN 用 作 图 像 字幕 系统 的 后 端 (Back-end) 解码 器 (He 和 Deng, 2017) 


使 用 上 述 端 到 端 框架 的 代表 性 研究 包括 图 像 字幕 生成 (Chen 和 Zitnick, 2015; Devlin 等 ,2015; 
Donahue 等 ，2015; Gan 等 ，2017; Karpathy 和 Fei-Fei, 2015; Mao 等 ，2015; Vinyals 等 ，2015) 
和 视频 字幕 生成 “Venugopalan ^$, 2015; Ballas ^5, 2016; Pan 等 ，2016; Yu 等 ，2016) 。 两 种 
方法 的 区 别 主 要 在 于 CNN 架构 的 类 型 和 基于 RNN 的 语言 模型 .例如 , Karpathy 和 Fei-Fei(2015)、 
Mao ^& A (2015) 在 实验 中 使 用 了 Vanilla RNN 模型 , 而 Vinyals 等 人 (2015) 使 用 了 LSTM 模型 。 
在 Vinyals 4 A (2015 年 ) 实验 的 第 一 步 中 ， 视 觉 特 征 向 量 仅 被 输入 RNN 一 次 ， 而 它 在 Karpathy 
和 Fei-Fei (2015 年 ) 实验 的 RNN 的 每 个 时 间 步 长 中 都 有 使 用 。 有 必要 指出 的 是 ， 深 度 CNN 对 于 
图 像 到 文本 应 用 的 成 功 至 关 重 要 ， 它 考虑 了 图 像 输入 的 特殊 平移 不 变 特性 。 
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近期 ，Xu 等 人 Q0150 利用 基于 注意 力 机 制 学 习 了 在 字幕 生成 期 间 有 关 图 像 中 聚焦 的 位 置 。 
注意 力 机 制 结构 如 图 9-4 所 示 。 与 简单 的 编码 器 -解码 器 方法 不 同 ， 基 于 注意 力 的 方法 使 用 CNN 不 
仅 生 成 全 局 视觉 向 量 ， 还 为 图 像 中 的 子 区 域 生成 一 组 视觉 向 量 ， 这 些 子 区 域 向 量 可 以 从 CNN 的 下 
卷 积 层 中 提取 。 在 语言 生成 中 ， 在 生成 新 词 的 每 个 步 又 中 ，RNN 将 参考 这 些 子 区 域 向 量 ， 并 确定 
每 个 子 区 域 与 当前 状态 相关 的 可 能 性 来 生成 该 词 。 最 终 , 注意 力 机制 将 形成 一 个 上 下 文 向 量 , 它 是 
关联 可 能 性 加 权 的 子 区 域 视觉 向 量 之 和 ， 用 于 RNN 对 下 一 个 新 词 进 行 解码 。 


global visual Caption 
vector 
A CNN ^ a-— 。 a baby holding a toothbrush in 
its mouth 

acum, 
x 
-— Attention context vector 
Visual vectors 
for sub-regions 


图 9-4 图 像 字幕 系统 的 自然 语言 生成 过 程 中 的 注意 力 机 制 〈 来 自 He 和 Deng, 2017) 


Yang 等 人 紧 接 着 进行 这 项 工作 〈2016) ， 其 中 引入 了 一 个 审查 模块 来 改进 注意 力 机 制 ， 并 且 
Liu 等 人 (20160 进一步 提出 了 一 种 提高 视觉 注意 力 正 确 性 的 方法 。 最 近 ，Anderson 等 人 (2017) 
提出 了 基于 目标 检测 的 自 下 而 上 的 注意 力 模型 ， 展示 了 图 像 字幕 的 最 新 性 能 。 在 该 框架 中 ， 所 有 参 
数 (包括 CNN、RNN 和 注意 力 模型 ) 都 可 以 从 整体 模型 的 开始 到 结束 部 分 进行 联合 训练 ， 因 此 称 
为 “ 端 到 端 ”。 


9.32 组合 框架 


与 刚刚 描述 的 端 到 端的 编码 器 -解码 器 框架 不 同 ， 单 独 的 一 类 图 像 到 文本 (Image-to-Text) 方 
法 是 使 用 显 式 语义 -概念 -检测 (Semantic-Concept-Detection〉 过 程 来 生成 字幕 。 检 测 模 型 和 其 他 模 
块 通常 是 分 别 进行 训练 的 .图 9-5 给 出 了 Fang 等 人 (2015 ) 提 出 的 基于 语义 -概念 -检测 的 组 合 方法 。 
这 种 方法 类 似 于 语音 识别 中 长 期 存在 的 结构 ， 并 受到 该 结构 的 驱动 ,该 结构 由 声学 模型 、 发 音 模型 
和 语言 模型 的 多 个 模块 组 成 (Baker 等 ,2009; Hinton 等 ,2012; Deng 等 ,2013; Deng 和 O’Shaughnessy， 
2003) 。 


Semantic tags 
medi N-best 
caption + 0 boby holding a 
| hoidis hypotheses toothbrush in its 
mouth 
-= 
global visual 
vector 


图 9-5 基于 语义 -概念 -检测 的 组 合 方法 的 图 像 字幕 (He 和 Deng, 2017) 
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在 此 框架 中 ， 字 幕 生 成 管道 (Pipeline， 有 时 也 称 为 流水 线 ) 的 第 一 步 是 检测 一 组 语义 概念 ， 
称 为 标记 或 属性 ， 它 们 可 能 是 图 像 描述 的 一 部 分 。 这 些 标 记 可 以 属于 任何 词类 ,包括 名 词 、 动 词 和 
形容 词 。 与 图 像 分 类 不 同 ,标准 监督 学 习 技术 不 能 直接 应 用 于 学 习 检 测 器 ,因为 监督 仅 包 含 整个 图 
像 和 人 工 注释 的 全 部 字幕 语句 ， 而 与 单词 对 应 的 图 像 语义 的 边界 是 未 知 的。 为 了 解决 这 个 问题 ， 
Fang 等 人 (20150 提出 使 用 多 实例 学 习 CMultiple Instance Learning, MIL) 的 弱 监督 方法 来 学 习 检 
测 器 (Zhang 等 , 2005) . 而 在 Tran 等 人 (2016) 的 论文 中 ,该 问题 被 视 为 多 标签 分 类 (Multi-Label 
Classification) 任务 。 

1E Fang ^$ A (2015) 的 论文 中 , 将 检测 到 的 标签 提供 给 基于 N-Gram ff Jii (Max-Entropy) 
语言 模型 来 生成 字幕 假设 的 列表 。 每 个 假设 都 是 覆盖 某 些 标记 的 完整 句子 , 并 且 由 定义 词 序列 概率 
分 布 的 语言 模型 所 建 模 的 语法 进行 规则 化 。 

然后 , 通过 对 整个 句子 和 整个 图 像 计算 的 特征 的 线性 组 合 (包括 句子 长 度 、 语 言 模型 得 分 以 及 
整个 图 像 和 整个 字幕 假设 之 间 的 语义 相似 性 ) ， 对 所 有 假设 重新 排序 。 其 中 ， 图 像 字幕 语义 相似 度 
是 通过 深层 多 模 态 相似 度 模型 来 计算 的 , 该 模型 是 先前 为 信息 检索 开发 的 深层 结构 化 语义 模型 的 多 
模 态 扩展 (Huang 等 ，2013) 。 这 种 “语义 ”模型 由 一 对 神经 网 络 组 成 ， 用 于 将 每 个 输入 模式 、 图 
像 和 语言 映射 为 公共 语义 空间 中 的 向 量 , 然后 将 图 像 字幕 语义 相似 性 定义 为 它们 向 量 之 间 的 余弦 相 
似 性 。 

与 端 到 端 框架 相 比 , 组 合 方法 在 系统 开发 和 部 署 方 面 提供 了 更 好 的 灵活 性 , 并 有 助 于 利用 各 种 
数据 源 更 有 效 地 优化 不 同 模块 的 性 能 , 而 不 是 在 有 限 的 图 像 字幕 配对 上 学 习 所 有 模型 的 数据 。 另 一 
方面 , 端 到 端 模型 通常 具有 更 简单 的 架构 , 可 以 与 组 合 方法 联合 在 一 起 来 优化 整个 系统 的 不 同 组 件 
进而 获得 更 好 的 性 能 。 

最 近 ， 研 究 人 员 提 出 了 一 类 模型 来 将 显 式 语义 -概念 -检测 集成 在 编码 器 -解码 器 框架 中 。 例 如 ， 
Ballas ^& A. (2016) 将 检索 到 的 句子 应 用 为 附加 的 语义 信息 ， 以 在 生成 字幕 时 指导 LSTM 模型 ， 而 
在 Fang 等 人 的 论文 (20150 、You 等 人 的 论文 (2016) 和 Tran A (20160. 的 论文 中 ， 他 们 在 生 
成 句子 之 前 使 用 了 语义 -概念 -检测 过 程 。 在 Gan 等 人 〈2017b) 的 论文 中 ， 基 于 检测 出 的 用 于 构成 
字幕 的 语义 概念 的 概率 ， 构 造 语义 组 合 网 络 。 这 一 系列 方法 代表 了 当前 图 像 字幕 的 最 新 技术 。 

从 架构 和 任务 定义 的 角度 来 看 ， 这 种 用 于 图 像 字 幕 和 语音 识别 的 组 合 框架 具有 多 个 共同 的 主题 。 
这 两 个 任务 都 有 自然 语言 句子 的 输出 ， 只 是 前 者 输入 不 同 的 图 像 像 素 ， 而 后 者 输入 不 同 的 语音 波形 而 
己 。 图 像 字幕 中 的 属性 检测 模块 与 语音 识别 中 的 语音 识别 模块 起 着 类 似 的 作用 (Deng 和 Yu, 2007) 。 
使 用 语言 模型 将 图 像 中 检测 到 的 属性 转换 为 图 像 字幕 中 的 字幕 假设 列表 ， 在 语音 识别 的 后 期 阶段 具有 
对 应 的 关系 ， 将 声学 特征 和 语音 单元 转换 为 词汇 正确 的 单词 假设 集合 〈 通 过 发 音 模型 ) ， 然 后 进入 语 
言 合理 的 单词 序列 〈 通 过 语言 模型 ) (Bride ^2, 1998; Deng, 1998) 。 图 像 字幕 重新 排序 模块 的 独 
特 之 处 在 于 ， 之 前 的 属性 检测 模块 不 具备 完整 图 像 的 全 局 信息 ， 而 要 为 完整 图 像 生成 有 意义 的 自然 语 
句 就 需要 这 些 信息 。 相 比 之 下 ， 语 音 识别 不 需要 匹配 输入 和 输出 的 全 局 属性 。 


9.3.3 ”其 他 框架 


除了 图 像 字幕 的 两 个 主要 框架 之 外 , 其 他 相关 框架 还 学 习 了 视觉 特征 和 相关 字幕 的 联合 词 向 量 ， 
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例如 Wei 等 人 (2015) 已 经 研究 过 为 图 像 中 的 各 个 区 域 生成 密集 的 图 像 字 幕 , 并 且 Pu 等 人 (2016) 

开发 了 用 于 图 像 字 幕 的 变 分 自动 编码 器 。 此 外 ， 受 最 近 强 化 学 习 成 功 的 激励 ， 图 像 字幕 研究 人 员 还 
提出 了 一 套 基 于 强化 〈(Reinforce) 学 习 的 算法 ， 以 直接 优化 特定 奖励 的 字幕 模型 。 例 如 ，Rennie 
等 人 (2017) 提出 了 一 种 Self-Critical 序列 训练 算法 ， 它 使 用 强化 算法 来 优化 像 CIDEr 这 样 的 评估 
指标 , 这 通常 是 不 可 微分 的 , 因此 不 容易 通过 传统 的 基于 梯度 的 方法 进行 优化 .在 Ren 等 人 (2017) 

的 文献 中 , 在 Actor - Critic 框架 内 , 学 习 策略 网 络 和 评估 网 络 通 过 优化 视觉 语义 激励 来 生成 字幕 ， 

并 度量 图 像 和 生成 的 字幕 之 间 的 相似 性 。 关于 图 像 字幕 的 生成 , 研究 人 员 近 期 又 提出 了 基于 生成 对 
抗 网 络 (GAN) 的 文本 生成 模型 。 其 中 ，SeqGAN (Yu 等 ，2017) 将 生成 器 建 模 为 强化 学 习 中 的 
随机 策略 ， 如 文本 等 离散 输出 ，RankGAN (Lin 等 ，2017) 提出 了 一 种 基于 排序 的 鉴别 器 损失 ， 它 
[以 更 好 地 评估 生成 文本 的 质量 ， 从 而 产生 更 好 的 生成 器 。 


9.4 评估 指标 和 基准 


关于 自动 生成 字幕 的 质量 ， 研 究 人 员 曾 在 有 关 自 动 评估 和 人 类 研究 的 文献 中 做 过 评估 和 报告 。 
常用 的 自动 评估 标准 包括 双语 评估 替补 BLEU(Papineni 等 ,2002)、METEOR(Denkowski 和 Lavie, 
2014) 、CIDEr (Vedantam 等 ，2015) 以 及 SPICE (Anderson 等 ，2016) . BLEU (Papineni ^5, 
2002) 在 机 器 翻译 中 被 广泛 使 用 ， 并 且 度 量 假设 和 参考 (或 一 组 参考 ) 文献 之 间 共 有 的 N-Gram 分 
数 ( 最 多 4-Gram) 。METEOR (Denkowski 和 Lavie, 2014) 度量 的 是 一 元 模型 (Unigram) 的 精 
确 度 和 召回 率 ， 但 是 扩展 了 精确 的 单词 匹配 以 包括 基于 WordNet 同义词 和 词 干 标记 的 类 似 单词 。 
CIDEr (Vedantam 等 ，2015) 还 度量 了 字幕 假设 和 参考 文献 之 间 的 N-Gram 匹配 ， 而 N-Gram 是 通 
过 TF-IDF 进行 加 权 的 。 相 反 ， 在 给 定 参考 文献 的 情况 下 ，SPICE (Anderson 等 ，2016) 可 以 评估 
图 像 字幕 中 包含 语义 命题 内 容 的 Fl 得 分 ， 因 此 与 人 类 判断 的 相关 性 最 好 。 这 些 自动 评估 可 以 有 效 
地 计算 ， 因 此 大 大 加 快 了 图 像 字幕 算法 的 发 展 。 然 而 ， 众 所 周知 ， 所 有 这 些 自动 指标 只 与 人 类 的 判 
断 大 致 相关 (Elliott 和 Keller, 2014) 。 

截至 到 目前 为 止 , 研究 人 员 已 经 创建 了 许多 数据 集 , 用 于 图 像 字幕 的 研究 .Flickr 数据 集 (Young 
^&, 2014) fil PASCAL 句子 数据 集 (Rashtchian 等 ，2010) 是 为 了 促进 图 像 字幕 的 研究 而 创建 的 。 
最 近 ， 微 软 公司 赞助 创建 的 COCO (上 下 文中 的 公共 对 象 ) 数据 集 (Lin 等 ，2015) 是 目前 可 供 公 
众 使 用 的 最 大 图 像 字幕 数据 集 。 近 年 来 ， 大 规模 数据 集 的 可 用 性 极 大 地 促进 了 图 像 字幕 的 研究 。 在 
2015 年 ， 大 约 15 个 小 组 参加 了 COCO 字幕 挑战 赛 (Cui 等 ，2015) 。 挑 战 中 的 项 目 由 人 类 来 判断 
和 评估 。 在 本 次 比赛 中 ， 所 有 参赛 作品 的 评比 结果 中 被 评比 为 “好 ”或 “等 于 ”人 类 水 平 的 字幕 所 
占 比 为 M1， 通 过 图 灵 测 试 的 字幕 所 占 比 为 M2。 另 外 三 个 度量 被 用 作 结 果 的 诊断 和 解释 : 1-5 级 
字幕 的 M3- 平 均 正 确 性 〈 不 正确 -正确 ) 、1~5 级 字幕 的 M4- 平 均 细节 量 〈 缺 乏 细节 -非常 详细 ) 以 
及 与 人 类 描述 相似 的 M5- 百分比 字幕 。 在 评估 中 ， 每 个 任务 都 呈现 出 一 个 图 像 和 两 个 字幕 : 一 个 字 
幕 是 自动 生成 的 ， 另 一 个 是 人 工 字 幕 。 对 于 M1， 需 要 评判 者 选择 出 哪个 字幕 更 好 地 描述 了 图 像 ， 
或 者 在 质量 相同 时 选择 相同 的 选项 。 对 于 M2， 要 求 评判 者 判断 出 这 两 个 字幕 中 哪个 是 由 人 类 生成 
的 。 如 果 评 判 者 选择 自动 生成 的 字幕 ， 或 者 选择 “无 法 告知 ”选项 ， 就 认为 已 经 通过 了 图 灵 测 试 。 


al 
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从 2015 年 COCO 字幕 挑战 中 的 前 15 个 图 像 字幕 系统 获得 了 上 述 MI 至 MS 指标 量化 的 结果 ， 
以 及 通过 自动 指标 度量 的 其 他 项 ， 已 在 He 和 Deng (2017) 的 论文 中 进行 了 总 结 和 分 析 。 这 些 系 
统 的 成 功 反 映 了 我 们 在 利用 深度 学 习 方法 实现 从 感知 到 认 知 这 一 具有 挑战 性 的 任务 上 取得 了 巨大 
进步 。 


9.5 近期 研究 


由 深度 学 习 系统 根据 图 像 生成 的 自然 语言 字幕 采用 在 前 面 提供 的 许多 技术 并 提供 了 示例 , 通常 
它们 仅 给 出 图 像 内 容 的 描述 。 自 然 语言 风格 在 字幕 生成 过 程 中 常常 被 忽略 。 具体 来 说 , 现 有 的 图 像 
字幕 系统 一 直 在 使 用 语言 生成 模型 , 该 模型 将 该 风格 与 其 他 语言 生成 的 语言 风格 混合 ,从 而 缺乏 明 
确 控制 语言 风格 的 机 制 。Gan 等 人 〈2017a) 最 近 的 研究 旨 在 克服 这 一 缺陷 ， 并 进行 了 相关 阐述 。 
对 图 像 进行 浪漫 或 幽默 的 自然 语言 描述 可 以 极 大 地 丰富 字幕 的 可 表达 性 并 使 其 更 具 吸 引力 。 一 
个 有 吸引 力 的 图 像 字幕 将 增加 图 像 的 视觉 兴趣 ， 甚 至 可 以 成 为 字幕 系统 的 一 个 显著 特征 。 这 对 于 某 
些 应 用 尤其 有 价值 ， 例 如 ， 增 加 用 户 在 同 聊天 机 器 人 “聊天 ”中 的 参与 度 或 在 社交 媒体 的 照片 字幕 
中 启发 用 户 。 

Gan 等 人 (20172) 提出 了 StyleNet, 它 能 够 仅 使 用 单 语言 程序 化 语言 语料库 (没有 配对 图 像 
和 标准 事实 图 像 /视频 -字幕 对 来 生成 具有 自身 风格 的 有 吸引 力 的 图 像 字幕 。StyleNet 是 基于 卷 积 神 
经 网 络 CCNNO 和 循环 神经 网 络 (RNN) 的 结合 ， 用 于 图 像 字幕 处 理 。 这 项 工作 受到 多 任务 序列 
对 序列 训练 的 精神 激励 (Luong 等 ，2015) 。 特 别 是 ， 它 引入 了 一 种 新 的 LSTM 模型 ， 该 模型 可 
以 通过 多 任务 训练 从 句子 中 分 离 出 事实 因素 和 风格 因素 。 然 后 , 在 运行 时 可 以 显 式 地 将 风格 因素 合 
并 在 一 起 ， 为 图 像 生成 不 同 的 风格 的 字幕 。 

其 实 ，StyleNet 在 新 收集 的 Flickr 风格 化 图 像 字幕 数据 集 上 已 经 进行 了 评估 ， 结 果 表 明 所 提出 
的 StyleNet 显著 优 于 先前 由 自动 评估 和 人 类 评估 所 度量 的 最 新 图 像 字幕 方法 。 图 9-6 显示 了 一 些 典 
型 的 图 像 字幕 生成 实例 ， 其 中 观察 到 具有 标准 事实 风格 的 字幕 仅 以 枯燥 的 语言 描述 图 像 中 的 事实 
而 浪漫 和 幽默 风格 的 字幕 不 仅 可 以 描述 图 像 的 内 容 , 还 以 浪漫 或 幽默 的 方式 表达 内 容 。 通 过 生成 带 
有 浪漫 (例如 恋爱 、 真 爱 、 享 受 、 约会 等 ) 或 幽默 感觉 的 短语 可 以 找到 一 种 委婉 的 表达 方式 。 此 外 ， 
还 发 现 StyleNet 生成 的 短语 与 图 像 的 视觉 内 容 匹配 一 致 , 使 得 字幕 在 视觉 上 是 相关 的 并 具有 吸引 力 。 
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F: A boy sits on the swing. F: A black dog stand in the water. 
ML tor swings to oxoerionce tne hiahs and lows in his tto, Ri A dog takes a shower in tho water baforo dating. 
ED] H A boy is sitting on a swing ready to t ? H: A black dog Is running into the water to catch fish. 
IF: A man is riding a bike on a dirt road. F: A brown dog and a black dog play in the snow. 
IR: A bike rider racos along a road speed to finish the line. R: Two dogs in love are playing together in the snow. 
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A football player in a red uniform is running with football ~ Jag Two men are sitting on a bench under a tree . 
N EEUU «a football player in red is running to win the game. R: Two mon are waiting tor thoir rus iove 
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9-6 由 StyleNet 进行 图 像 生成 字幕 的 6 个 示例 ， 每 个 生成 的 图 像 字幕 具有 3 种 不 同 的 风格 
9.6 图 像 字幕 的 产业 布局 


在 研究 界 迅速 发 展 的 推动 下 ， 业 界 开始 部 署 图 像 字幕 服务 。 在 2016 年 3 月 ， 微 软 公司 向 公众 
发 布 了 作为 云 API 的 图 像 字幕 服务 。 为 了 展示 该 功能 的 用 法 ， 它 还 部 署 了 一 个 名 为 CaptionBot 
Chttp://CaptionBot.ai) 的 Web 应 用 程序 ， 用 于 描述 用 户 上 传 的 任意 图 片 。 最 近 ， 微 软 在 广泛 使 用 
的 Office 产品 中 部 署 了 字幕 生成 服务 , 特别 是 Word 和 PowerPoint 的 应 用 上 , 用 于 自动 生成 备 选 文 
本 ， 以 便于 访问 。Facebook 公司 也 发 布 了 一 个 图 像 字幕 自动 生成 的 工具 ， 提 供 了 照片 中 标识 的 对 
象 和 场景 的 列表 。 同 时 ，Google 公司 为 社区 开放 了 图 像 字幕 自动 生成 系统 。 

通过 这 些 在 行业 内 大 规模 的 部 署 和 开源 项 目 ， 实 际 场景 中 的 大 量 图 像 和 用 户 反馈 正在 被 收集 ， 
作为 不 断 增 加 的 训练 数据 ,以 稳定 地 提高 系统 的 性 能 。 这 将 反 过 来 激发 了 用 于 视觉 理解 和 自然 语言 
生成 的 深度 学 习 方 法 的 新 研究 。 


9.7 详解 图 像 字幕 自动 生成 任务 


9.7.1 认识 数据 集 


首先 直接 和 间接 地 了 解 我 们 正在 使 用 的 数据 ， 是 下 面 两 个 数据 集 : 


€ TheILSVRC ImageNet dataset ( http://image-net.org/download ) 
€ The MS-COCO dataset ( http://cocodataset.org/Zdownload ) 


我 们 不 会 直接 使 用 第 一 个 数据 集 , 但 它 对 于 字幕 学 习 至 关 重 要 。 此 数据 集 包含 图 像 及 其 各 自 的 
类 别 标签 (例如 猎 、 狗 、 汽 车 和 树 等 ) 。 我 们 将 使 用 一 个 已 经 在 这 个 数据 集 上 训练 过 的 CNN， 所 
以 不 必 从 头 开 始 下 载 和 训练 这 个 数据 集 。 接 下 来 ， 将 使 用 MS-COCO 数据 集 ， 其 中 包含 图 像 及 其 
各 自 的 字幕 。 我 们 将 使 用 CNN 将 图 像 映射 到 固定 大 小 的 特征 向 量 ， 然 后 使 用 LSTM 将 此 向 量 映射 
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到 相应 的 字幕 ， 直 接 从 该 数据 集中 学 习 〈 稍 后 将 详细 讨论 该 过 程 ) 。 
1. ILSVRC ImageNet 数据 集 


ImageNet 是 一 个 图 像 数据 集 ,包含 大 量 图 像 ( 约 一 百 万 个 ) 及 其 各 自 的 标签 .这 些 图 像 属 于 1 000 
个 不 同 的 类 别 。 此 数据 集 非 常 具 有 表现 力 , 并 且 在 我 们 要 为 其 生成 字幕 的 图 像 中 可 以 找到 几乎 所 有 
的 对 象 。 因 此 ，ImageNet 是 一 个 很 好 的 训练 数据 集 ， 便 于 我 们 获得 生成 字幕 所 需 的 图 像 编 码 。 我 
们 将 间接 地 使 用 这 个 数据 集 ， 因 为 我 们 将 使 用 在 该 数据 集 上 训练 好 的 预 训练 CNN。 因 此 ， 我 们 不 
会 下 载 这 个 数据 集 ， 也 不 会 在 此 数据 集 上 训练 CNN。 图 9-7 显示 了 ImageNet 数据 集中 的 一 些 可 用 
类 别 。 


ses_snake Shetland sheepdog 


carton crane 


grey whale 


cellular telephone 


Granny, Smith go-kart freight car 


uer 


9-7 ImageNet 数据 集中 的 一 些小 样 例 


2. MS-COCO 数据 集 


我 们 继续 讨论 数据 集 MS-COCO (Microsoft - Common Objects in Context) ， 这 里 我 们 将 使 用 
2014 年 的 数据 集 。 如 前 所 述 ， 此 数据 集 由 图 像 及 其 各 自 的 文字 描述 所 组 成 。 数 据 集 非常 大 例如， 
训练 数据 集 由 大 约 120 000 个 样本 组 成 ， 数 据 量 超过 15 GB ) ， 这 个 数据 集 每 年 更 新 一 次 ， 然 后 举 
行 竞赛 以 表彰 实现 最 佳 性 能 的 团队 。 当 目标 是 为 了 实现 最 佳 性 能 时 , 使 用 完整 数据 集 就 显得 非常 有 
意义 。 然 而 ， 在 我 们 的 例子 中 ， 是 需要 一 个 模型 ， 它 可 以 合理 地 学 习 具 有 普遍 性 的 图 像 字幕 生成 过 
程 。 因 此 ， 我 们 将 使 用 较 小 的 数据 集 〈 约 40 000 张 图 像 和 约 200 000 000 个 字幕 ) 来 训练 模型 。 图 
9-8 给 出 了 一 些 可 用 的 样本 。 

为 了 学 习 和 测试 端 到 端 图 像 字幕 自动 生成 模型 ， 我 们 将 使 用 官方 MS-COCO 数据 集 网 站 上 提 
供 的 2014 年 的 验证 数据 集 。 该 数据 集 由 约 41 000 张 图 像 和 约 200 000 个 字幕 组 成 。 我 们 将 使 用 初 
台 的 1 000 个 样本 作为 验证 集 ， 其 余 的 作为 训练 集 。 


在 实践 中 ， 我 们 应 该 使 用 单独 的 数据 集 进行 测试 和 验证 。 但 是 ， 由 于 我 们 使 用 了 有 限 的 
数据 ， 为 了 最 大 化 学 习 效果 ， 因 此 这 里 考虑 使 用 相同 的 数据 集 进行 测试 和 验证 。 
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图 9-8 MS-COCO 数据 集中 的 一 些 样 例 
在 图 9-9 cp, 我 们 可 以 看 到 验证 集中 的 一 些 图 像 。 这 些 图 像 是 在 验证 集中 精心 挑选 的 一 些 的 示 
例 ， 展示 了 各 种 不 同 的 对 象 和 场景 。 我们 将 使 用 这 些 图 像 来 检查 结果 ， 因 为 以 可 视 化 方式 检查 验证 
集中 的 1000 个 样本 是 不 可 行 的 。 


图 9-9 以 这 些 图 像 来 测试 算法 的 图 像 字幕 自动 生成 能 力 


9.72 用 于 图 像 字幕 自动 生成 的 深度 学 习 管 道 


在 这 里 , 我 们 将 看 到 一 个 高 级 别 的 图 像 字幕 自动 生成 管道 , 然后 逐个 讨论 它 ， 直 到 得 到 一 个 完 
整 的 模型 。 图 像 字幕 自动 生成 框架 由 三 个 主要 组 件 和 一 个 可 选 组 件 组 成 : 

© CNN 生成 用 于 图 像 的 编码 向 量 。 

@“” 词 谈 入 层 学 习 词 向 量 。 

e (TŻ) 可 以 将 给 定 词 向 量 维度 转换 为 任意 维度 的 适 配 层 ( 后续 将 进行 详细 讨论 ) 。 
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€ LSTM 获取 图 像 的 编码 向 量 ， 并 输出 相应 的 字幕 。 


首先 ， 让 我 们 看 一 下 CNN 生成 图 像 的 编码 向 量 。 我 们 可 以 通过 在 大 型 分 类 数据 集 (例如 
ImageNeO 上 训练 CNN 并 使 用 该 知识 生成 图 像 的 压缩 向 量化 表示 来 实现 这 一 点 。 

有 人 可 能 会 问 ， 为 什么 不 将 图 像 输入 LSTM WE? 让 我 们 回 到 第 8 章 中 提 到 的 一 个 简单 计算 : 

“如 果 输 入 层 增 加 了 500 个 单位 ， 就 会 导致 参数 增加 200 000 个 ”。 

我 们 在 这 里 处 理 的 图 像 大 约 在 150 000-224x224x3 之 间 , 这 应 该 可 以 让 你 意识 到 会 导致 LSTM 
参数 数量 增加 的 程度 。 因 此 ， 对 于 压缩 向 量化 表示 的 工作 变 得 至 关 重 要 。LSTM 不 适合 直接 处 理 原 
始 图 像 数 据 的 另 一 个 原因 是 ， 与 使 用 CNN 处 理 图 像 数据 相 比 ， 它 显得 过 于 复杂 。 


其 实 ，LSTM 中 也 存在 着 卷 积 LSTM (Convolution LSTM ) 这 样 的 变 体 。 卷 积 LSTM 可 
以 使 用 卷 积 运算 代替 全 连接 图 层 去 处 理 图 像 输 入 。 这 种 网 络 大 量 用 于 时 空间 题 ( 例如 ， 
天 气 数据 或 视频 预测 ), 其 具有 数据 的 空间 和 时 间 维 度 。 我 们 可 以 从 Jeff Donahue 等 人 的 


论文 《Long-term Recurrent Convolutional Networks for Visual Recognition and Description) 


( Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2015) 中 
查阅 有 关 考 积 LSTM 的 更 多 信息 。 


虽然 训练 过 程 完全 不 同 ,但 是 这 个 训练 过 程 的 目标 与 学 习 词 向 量 的 目标 是 相似 的 ,对 于 词 向 量 ， 
我 们 希望 相似 的 词 具 有 相似 的 向 量 〈 高 相似 度 ) ， 而 不 同 的 词 具有 不 同 的 向 量 〈 低 相似 度 ) 。 换 句 
话说 ， 如 果 1magex 表 示 针 对 图 像 x 获 得 的 编码 向 量 ， 那 么 以 下 式 子 应 该 成 立 : 


Distance(Imagecat, IMagevoicano) > Distance(Imagecat, Imageaog) 


接 下 来 ， 我 们 将 通过 从 MS-COCO 数据 集 提供 的 所 有 字幕 中 提取 所 有 单词 来 学 习 被 创建 的 文 
本 语料库 的 词 向 量 。 学 习 词 向 量 有 助 于 我 们 减少 LSTM 输入 的 维度 ， 还 有 助 于 生成 更 有 意义 的 特 
征 作为 LSTM 的 输入 。 这 是 机 器 学 习 管 道中 的 另 一 个 关键 目标 。 

当 我 们 使 用 LSTM 生成 文本 时 ,使 用 单词 的 One-Hot 编码 表示 或 词 向 量 表示 。 因此 , LSTM 的 
输入 始终 是 固定 大 小 的 。 如 果 输 入 大 小 是 动态 变化 的 ， 我 们 很 难 使 用 标准 LSTM 来 处 理 它 。 其 实 
没有 必要 担心 这 一 点 ， 因 为 我 们 只 处 理 文本 信息 。 

然而 , 在 这 种 情况 下 , 我 们 在 处 理 图 像 和 文本 时 需要 确保 图 像 的 编码 向 量 和 对 应 于 图 像 字幕 的 
每 个 词 的 表示 都 具有 相同 的 维度 .此 外 , 使 用 词 向 量 可 以 为 所 有 单词 创建 任意 固定 长 度 的 表示 方式 。 
因此 ， 我 们 使 用 词 向 量 来 匹配 图 像 编 码 向 量 长 度 。 

最 后 ， 我 们 将 为 每 个 图 像 创建 一 个 数据 序列 ， 其 中 序列 的 第 一 个 元 素 是 图 像 的 向 量化 表示 ， 然 
后 是 图 像 字幕 的 词 向 量 。 我 们 将 使 用 这 个 数据 序列 来 训练 LSTM。 

这 种 方法 类 似 于 论文 《Show, Attend and Tell: Neural Image Caption Generation with Visual 
Attention) (Xu 等 ， 第 32 届 机 器 学 习 国际 会 议论 文集 ，2015) 中 发 现 的 方法 ， 相 关 处 理 过 程 如 图 
9-10 所 示 。 
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LSTM ab 


图 9-10 用 于 生成 图 像 字 幕 的 机 器 学 习 管道 


9.7.3 使 用 CNN 提取 图 像 特 征 


下 面 详细 讨论 如 何 使 用 CNN 来 提取 图 像 的 特征 向 量 。 为 了 获得 良好 的 特征 向 量 ， 我 们 首先 需 
要 利用 图 像 及 其 对 应 的 图 像 类 别 训练 CNN 或 使 用 互联 网 上 免费 提供 的 预 训练 好 的 CNN。 如 果 我 们 
从 头 开始 训练 CNN, 将 不 得 不 进行 重复 性 的 工作 , 我们 这 里 选择 预 训练 好 的 模型 (可 供 免 费 下 载 )。 
另外 需要 说 明 的 是 ， 如 果 CNN 需要 能 够 描述 多 个 对 象 ， 那 么 需要 在 对 应 于 各 种 对 象 的 一 组 分 类 上 
进行 训练 。 这 就 是 在 大 型 数据 集 (如 ImageNeO 上 训练 模型 很 重要 的 原因 所 在 例如， 与 只 有 10 
个 不 同类 别 的 小 型 数据 集 的 训练 相 比 ) 。 如 前 所 述 ，ImageNet 包含 1 000 个 对 象 类 别 。 这 对 我 们 试 
图 解决 的 任务 来 说 已 经 足够 了 。 
不 过 ，ImageNet 包含 约 1MB 的 图 像 。 此 外 ， 由 于 有 1000 个 类 ， 显 然 不 能 使 用 具有 简单 结构 
的 小 型 CNN 〈 例 如 ， 具 有 几 层 的 CNN) 来 进行 学 习 。 我 们 需要 更 强大 、 更 深层 次 的 CNN， 但 是 
由 于 CNN 的 复杂 性 和 数据 集 本 身 的 复杂 性 ， 在 GPU 上 训练 这 样 的 神经 网 络 可 能 需要 几 天 (甚至 
几 周 ) 的 时 间 。 例如 , VGG ( 即 一 个 著名 的 CNN, 在 ImageNet 上 给 出 了 非常 好 的 图 像 分 类 准确 性 ) 
可 能 需要 2-3 周 的 时 间 来 进行 训练 。 

因此 ， 我 们 需要 更 巧妙 的 方法 来 解决 这 个 问题 。 幸 运 的 是 ， 像 VGG 这 样 的 CNN 可 以 随时 下 
载 , 所 以 我 们 可 以 在 没有 进行 任何 单独 训练 的 情况 下 使 用 它们 , 这 就 是 它 被 称 为 预 训练 模型 的 原因 
所 在 。 使 用 预 训练 模型 可 以 使 我 们 节省 数 周 的 时 间 ， 因 为 我 们 所 需要 的 只 是 学 习 的 权重 值 和 CNN 
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的 实际 结构 ， 以 重建 网 络 并 立即 使 用 它 进行 推理 工作 。 

本 实例 中 ,我 们 将 使 用 VGG CNN( 可 在 http://www.cs.toronto.edu/~frossard/post/vgg16/ 处 获得 )。 
VGG 架构 在 2014 年 的 ImageNet 竞赛 中 获得 第 二 名 , H VGG 有 几 种 变 体 : 13 层 深度 网 络 (VGG-13)、 
16 层 深度 网 络 (VGG-16) 和 19 层 深度 网 络 CVGG-19) 。 我 们 这 里 将 使 用 VGG-16， 其 网 络 架构 
如 图 9-11 所 示 。 


推 理 路 线 
pooll pool2 pool3 5 
conv conv conv conv|  convconv conv conv| conv conv cony conv | convconv conv conv 
1112 2122 4132 353 z4 41 4243 44 5152 53 54 | fc6 fc7fc 测 
| | 4i] 
f H ' ' tt | tr | | t Y 
m H fi f i 
!! i H " " 
y u | E <> da 
E T 512 512 
128 256 
Softmax 
— Y Y Y 
ReLu ReLu ReLu ReLu ReLu 


图 9-11 VGG-16 网 络 架 构 示意 图 


9.74 使 用 VGG-16 加 载 权重 值 并 进行 推理 


网 站 http:/www.cs.toronto.edu/~frossard/post/vggl16/ 提 供 了 权重 值 来 作为 NumPy 数组 的 字典 ， 
HA 16 个 权重 值 和 16 个 偏差 值 对 应 于 16 层 的 VGG-16 模型 ， 它 们 分 别 保存 在 下 面 一 些 字段 中 : 


convl 1 W, convl 1 b, convl 2 W, convl 2 b, conv2 1 W, conv2 1 b.. 


首先 ， 从 网 站 上 下 载 文件 并 将 其 保存 至 ch9/image caption data 文件 夹 中 。 现 在 我 们 将 讨论 有 具 
体 实现 过 程 : 从 加 载 下 载 得 到 的 CNN 到 使 用 预 训练 的 CNN 进行 预测 。 首 先 , 创建 必要 的 TensorFlow 
变量 并 用 下 载 的 权重 值 来 加 载 它 们 。 其 次 ， 定 义 一 个 输入 的 读 取 管道 ， 以 读 取 图 像 来 作为 CNN 的 
输入 以 及 几 个 预 处 理 步 又。 然后 定义 CNN 的 推理 操作 以 获得 相关 输入 的 预测 。 接 着 定义 具体 计算 
以 获得 图 像 分 类 ， 并 为 CNN 定义 认为 符合 给 定 输入 的 图 像 的 最 佳 分 类 预测 。 虽 然 最 后 一 个 操作 不 
需要 为 图 像 生成 字幕 ， 但 是 正确 地 配置 预 训练 的 CNN 非常 重要 。 

1. 构建 和 更 新 变量 


首先 使 用 以 下 内 容 将 包含 CNN 权重 值 的 NumPy 数组 字典 加 载 到 内 存 中 ( 即 加 载 到 CNN 的 记 
忆 中 ) : 


weight file = os.path.join('image caption data', 'vggl6 weights.npz') 
weights = np.load(weight file) 


接 下 来 , 创建 TensorFlow 变量 并 为 它们 赋予 实际 的 权重 值 。 此 外 , 这 可 能 占用 相当 多 的 内 存 。 
因此 ， 为 了 避免 机 器 崩溃 ， 我 们 将 特别 要 求 TensorFlow 将 其 保存 在 CPU 而 不 是 GPU 上 。 这 里 将 
简 述 用 于 构建 和 加 载 具 有 正确 权重 值 的 TensorFlow 变量 的 代码 。 我 们 将 首先 在 Python 列表 
TF SCOPES 中 定义 所 有 字典 的 键 (表示 CNN 的 不 同 层 IDO 。 然 后 将 迭代 遍历 每 个 图 层 ID， 同 时 
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使 用 相应 的 权重 值 窃 阵 和 偏差 向 量 作为 初始 化 过 程 ,根据 相应 图 层 ID 命名 具体 的 TensorFlow 变量 : 


def build vgg_variables (npz_weights) : 


构建 所 需 的 TensorFlow 变量 以 填充 VGG-16 并 用 实际 权重 值 填充 它们 


:Param npz weights: loaded weights as a dictionary 
return: 


params - [] 


print("Building VGG Variables (TensorFlow)...") 
with tf.variable scope('CNN'): 


+ 和 迭代 每 个 卷 积 和 全 连接 层 ， 并 使 用 变量 作用 域 来 创建 Tensorrlow 变量 
for si,scope in enumerate(TF SCOPES): 
with tf.variable scope(scope) as sc: 


weight key, bias key- TF SCOPES[si]*' W', TF SCOPES[si]-*' b' 


with tf.device('/cpu:0'): 
weights = tf.get variable(TF WEIGHTS STR, 
initializer- npz weights[weight key]) 
bias = tf.get variable(TF BIAS STR, initializer = npz weights[bias key]) 
params.extend([weights,bias]) 


return params 

2. 预 处 理 输入 

接 下 来 ， 定 义 一 个 输入 管道 以 便 将 图 像 输 入 到 VGG-16 模型 中 。VGG-16 对 输入 图 像 有 以 下 要 
求 ， 以 使 预测 趋 于 正确 : 

© 输入 量 应 为 [224,224,3]。 

e ”输入 应 该 是 零 均值 ( 但 不 是 单位 方差 ) 。 

以 下 代码 创建 一 个 管道 , 该 管道 直接 从 一 组 给 定 的 文件 名 中 读 取 , 且 应 用 前 面 的 转换 并 创建 一 
批 此 类 转换 后 的 图 像 。 此 过 程 在 代码 文件 里 由 preprocess_inputs_with_tfqueue 函数 进行 定义 。 

首先 ， 我 们 将 定义 一 个 文件 名 队列 ， 这 里 保存 了 我 们 应 该 读 取 的 文件 名 《图 像 的 文件 名 ) : 


+ 文件 名 的 FIFO 队列 
+ 创建 FIFO 队列 ， 以 便 reader 可 以 读 取 队列 


filename queue = tf.train.string input producer(filenames, capacity-10, 
shuffle-False) 


其 次 ， 这 里 将 定义 一 个 读 取 器 ， 它 将 文件 名 队列 作为 输入 并 输出 到 一 个 缓冲 区 中 ,而 后 从 该 组 
冲 区 读 取 文件 名 以 找到 和 读 取 对 应 的 图 像 数据 : 
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# 读 取 器 (reader) 采用 文件 名 队列 和 read () 逐个 输出 数据 
reader = tf.WholeFileReader () 
.; image buffer = reader.read(filename queue,name-'image read op') 

+ 读 取 原始 图 像 数 据 并 作为 unit8 返回 

dec image = tf.image.decode jpeg(contents- image buffer,channels-3, 
name-'decode jpg') 

+ 将 units 数据 转换 为 £10at32 类 型 

float image = tf.image.convert image dtype(dec image, 


dtype-tf.float32,name- 'float image') 


接 下 来 进行 预 处 理工 作 : 


# 将 图 像 大 小 调整 为 224 X224X3 

resized image = tf.image.resize images(float image, [224,224])*255.0 
+ 对 于 voc 模型 ， 图 像 仅 是 零 均值 的 (不 是 标准 化 的 单位 方差 ) 

std image = resized image - tf.reduce mean(resized image,axis-[0,1], 


keepdims-True) 
在 定义 预 处 理 管 道 之 后 ， 我 们 将 要 求 TensorFlow 一 次 生成 一 批 预 处 理 的 图 像 : 


image batch = tf.train.batch([std image], batch size = batch size, 
capacity - 10, allow smaller final batch-False,name-'image batch') 


3. 推理 

至 此 ， 我 们 已 经 创建 了 CNN， 且 已 经 定义 了 一 个 管道 用 于 读 取 图 像 ， 通 过 读 取保 存在 磁盘 上 
的 图 像 文 件 来 创建 批 处 理 。 现 在 我 们 想 用 从 管道 读 取 的 图 像 来 推断 CNN。 推 理 是 指 传 递 输入 (图 
像 ) 并 获得 预测 (属于 某 类 图 像 的 概率 〉 作为 输出 。 为 此 ， 我 们 将 从 第 一 层 开始 并 帮 代 到 softmax 
层 。 此 过 程 在 代码 文件 里 由 inference enn 函数 来 定义 。 

在 每 一 层 ， 我 们 将 获得 权重 值 和 偏差 ， 代 码 如 下 : 


def inference cnn(tf inputs, device): 
with tf.variable scope('CNN'): 
for si, scope in enumerate(TF SCOPES): 
with tf.variable scope(scope,reuse-True) as sc: 
weight, bias = tf.get variable(TF WEIGHTS STR), 
tf.get variable(TF BIAS STR) 


然后 对 于 第 一 个 卷 积 层 进行 计算 并 输出 : 


h = tf.nn.relu(tf.nn.conv2d(tf inputs,weight,strides-[1,1,1,1], 
padding='SAME') +bias) 


对 于 其 余 的 卷 积 层 进行 计算 并 输出 ， 其 中 的 输入 是 前 一 层 的 输出 : 


h = tf.nn.relu(tf.nn.conv2d(h, weight, strides-[1, 1, 1, 1],padding- 'SAME') 


* bias) 
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对 于 池 化 层 ， 计 算 如 下 : 


h = tf.nn.max pool (h, [1,2,2,1], [1,2,2,1],padding="'SAME') 


然后 ， 对 于 紧 跟 在 最 后 一 个 卷 积 层 / 池 化 层 之 后 找到 的 第 一 个 完全 连接 的 层 ， 我 们 将 给 出 如 下 
定义 的 输出 。 我 们 需要 将 来 自 [batch_size，height，width，channels] 的 最 后 一 个 卷 积 层 / 池 化 层 的 输 
入 重 塑 为 [batch_size，height * width * channels] 大 小 ， 因 为 接 下 来 就 是 一 个 完全 连接 层 : 


h shape = h.get shape().as list() 
h 
h 


tf.reshape(h,[h shape[0], h shape[1] * h shape[2] * h shape[311) 


tf.nn.relu(tf.matmul(h, weight) + bias) 


对 于 除 最 后 一 层 之 外 的 下 一 组 完全 连接 层 ， 我 们 得 到 如 下 输出 : 


h = tf.nn.relu(tf.matmul(h, weight) + bias) 

最 后 ， 对 于 最 后 一 个 完全 连接 层 ， 我 们 不 进行 任何 类 型 的 激活 操作 。 这 将 是 我 们 提供 给 LSTM 
的 图 像 特 征 表 示 ， 它 是 一 个 1000 维 的 向 量 : 

out = tf.matmul(h,weight) + bias 

4. 提 取 图 像 的 向 量化 表示 


我 们 从 CNN 中 提取 的 最 重要 的 信息 是 图 像 的 特征 表示 。 对 于 图 像 的 特征 表示 ， 我 们 将 在 应 用 
softmax 预测 之 前 获得 最 后 一 层 的 网 络 输出 。 因 此 ， 对 应 于 单个 图 像 的 向 量 长 度 为 1 000: 


tf train logit prediction = inference cnn(train image batch, device) 
tf test logit prediction - inference cnn(test image batch, device) 


5. 使 用 VGG-16 预测 图 像 分 类 的 概率 
接 下 来 ， 我 们 将 定义 获取 图 像 特征 表示 所 需 的 操作 以 及 实际 的 softmax 预测 ， 以 确保 我 们 的 模 
型 在 实际 应 用 中 的 正确 性 。 我 们 将 为 训练 数据 和 测试 数据 定义 这 些 相关 操作 : 


tf train softmax prediction = tf.nn.softmax(tf train logit prediction) 
tf test softmax prediction = tf.nn.softmax(tf test logit prediction) 


现在 运行 这 些 操作 ， 看 看 它们 是 否 正常 工作 ， 如 图 9-12 所 示 。 
现在 来 看 ， 我 们 的 CNN 似乎 知道 它 在 做 什么 。 当 然 ， 也 存在 错误 分 类 的 样本 例如 ， 长 颈 鹿 
被 识别 为 美洲 驼 ) ， 但 大 多 数 情 况 下 是 正确 的 。 


在 运行 前 面 已 定义 的 操作 以 获取 特征 向 量 和 预测 时 , 请 注意 batch size 变量 。 增 加 此 值 将 


使 代码 快速 运行 。 但 是 ， 如 果 没 有 足够 大 的 内 存 (大 于 8 GB )， 就 可 能 导致 系统 崩溃 。 
如 果 你 没有 高 端的 计算 机 ， 建 议 将 此 值 保持 在 10 以 下 。 
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African elephant 
(Confidence: 0.60) 


warplane 
(Confidence: 0.61) 


cellular telephone seashore fire engine 
(Confidence: 0.40) (Confidence: 0.49) (Confidence: 0.29) 


racket 
(Confidence: 0.98) 


bookshop 
(Confidence: 0.31) 


(Confidence: 0.58) (Confidence 0.27) 


图 9-12 利用 VGG 对 测试 图 像 进行 分 类 预测 


9.75 学 习 词 向 量 


本 小 节 讨 论 如 何 为 图 像 字幕 数据 集中 的 单词 执行 学 习 词 向 量 的 操作 。 首 先 , 我 们 对 字幕 进行 预 


处 理 : 


def preprocess caption (capt): 
capt = capt.replace('-',' ') 
capt = capt.replace(',','') 
capt = capt.replace('.','') 
capt = capt.replace('"','') 
capt = capt.replace('!','') 


capt = capt.replace(':','') 
capt = capt.replace('/','') 
capt = capt.replace('?','') 
capt = capt.replace(';','') 
capt = capt.replace('V' ',' ') 
capt = capt.replace('Mn',' ') 


return capt.lower() 


例如 ， 请 考虑 以 下 句子 : 


A living room and dining room have two tables, couches, and multiple chairs. 


这 将 转换 为 以 下 内 容 : 


a living room and dining room have two tables couches and multiple chairs 


然后 使 用 连续 词 袋 (CBOW ) 模型 来 学 习 词 向 量 , 就 像 我 们 在 第 4 章 词 嵌入 学 习 词 向 量 中 所 做 


的 那样 。 在 学 习 词 向 量 时 , 我 们 需要 说 记 一 点 : 词 向 量 的 维度 应 该 与 为 图 像 获 得 的 特征 表示 的 维度 
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相 匹配 ， 因 为 标准 LSTM 无 法 处 理 动态 大 小 的 输入 。 

如 果 我 们 要 使 用 预 训练 的 词 向 量 , 很 可 能 词 向 量 的 维度 与 图 像 特征 表示 维度 不 同 。 在 这 种 情况 
TF. 我们 可 以 使 用 适应 层 (类 似 于 神经 网 络 的 一 层 ) 将 词 向 量 维度 与 图 像 特 征 表示 维度 相 匹 配 ， 稍 
后 会 具体 展开 说 明 。 

现在 让 我 们 看 一 下 运行 100 000 步 后 学 习 的 一 些 词 向 量 : 


Nearest to 
Nearest to 
Nearest to 
Nearest to 
Nearest to 
Nearest to 
Nearest to 
Nearest to 
Nearest to 
Nearest to 
Nearest to 
Nearest to 
Nearest to 
Nearest to 
Nearest to 
Nearest to 


gloves: cage, slammed, sidewaolk, 
dishwasher: clinging, island, uncut, 
rowboat: gushes, peeks, 210, 
attacted: cambodian, protest, stack, 
eroded: bunkbeds, stood, countryside, 
flyinf: ninety, ij, arew, 

redorange: railhouse, drunks, poster, 
becomes: legos, gorge, commidents, 
bow: jordan, longer, man's, 

suface: artichokes, cookouts, plane's, 
dingy: stars, pillow, stock, 

bonzai: llth, shoe's, incldues 

army: american, snapple, connected, 
mixed: cooked, raw, oxes, 

Sleezy: lamas, hiragishi, doubles, 
grasshopper: zoo, fenced, sewed, 


9.7.6 为 LSTM 模型 准备 字幕 数据 


现在 , 在 将 词 
多 的 预 处 理 步骤 。 


向 量 与 图 像 特征 向 量 一 起 提供 给 训练 模型 之 前 , 我 们 需要 对 图 像 字幕 数据 执行 更 


在 预 处 理 之 前 ， 让 我 们 看 一 些 关 于 图 像 字幕 的 基本 统计 数据 。 每 个 图 像 字幕 平均 有 10 个 左右 
的 单词 ， 标 准 差 大 约 为 2 个 单词 。 这 些 信 息 对 于 我 们 截断 不 必要 的 长 字幕 非常 重要 。 

首先 ， 按 照 前 面 的 统计 数据 ， 设 置 允许 的 最 大 字幕 长 度 为 12。 

接 下 来 ， 介 绍 两 个 新 的 单词 标签 一 一 SOS 和 EOS。SOS 表示 句子 的 开头 ， 而 EOS 表示 句子 的 
结尾 。 这 些 有 助 于 LSTM 轻松 识别 句子 的 开头 和 结尾 。 


FK, Ri 


] 将 EOS 标签 添加 到 长 度 小 于 12 的 字幕 ， 使 其 长 度 达到 12. 


因此 ， 请 考虑 以 下 字幕 : 


a man standing on a tennis court holding a racquet 


加 入 SOS 和 EOS 后 ， 上 面 的 句子 将 显示 如 下 : 


SOS a man s 


tanding on a tennis court holding a racquet EOS 


考虑 下 面 这 个 字幕 : 
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a cat sitting on a desk 


它 会 变 成 以 下 内 容 : 


SOS a cat sitting on a desk EOS EOS EOS EOS EOS 
但 是 ， 考 虑 以 下 字幕 : 


a well lit and well decorated living room shows a glimpse of a glass front door 


through the corridor 


将 变 成 以 下 内 容 : 


SOS a well lit and well decorated living room shows a EOS 

注意 ， 即 使 在 被 截断 之 后 ， 图 像 的 上 下 文大 部 分 仍然 被 保留 。 

将 所 有 字幕 设置 为 相同 的 长 度 非常 重要 , 这 样 我 们 就 可 以 处 理 一 批 图 像 和 字幕 ， 而 不 是 逐个 处 
理 它们 。 


9.7.7 生成 LSTM 的 数据 


在 这 里 , 我 们 将 定义 如 何 提取 一 批 数 据 来 训练 LSTM。 每 当 我 们 处 理 一 批 新 数据 时 ， 第 一 个 输 
入 应 该 是 图 像 特 征 向 量 ， 而 标签 应 该 是 SOS。 我 们 将 定义 一 批 数据 ， 其 中 ， 如 果 first sample 布尔 
值 为 True， 就 从 图 像 特 征 向 量 中 提取 输入 ; 如 果 first sample 为 False， 就 从 词 向 量 中 提取 输入 。 此 
外 ,在 生成 一 批 数据 之 后 ， 我 们 将 移动 一 个 指针 ， 因 此 下 次 生成 一 批 数据 时 ， 我 们 将 获得 序列 中 的 
下 一 项 。 这 样 ， 我 们 可 以 为 LSTM 输入 一 系列 数据 ， 其 中 第 一 批 序列 数据 是 图 像 特 征 向 量 ， 然 后 
是 与 这 批 图 像 对 应 字幕 的 词 向 量 。 


# 填充 每 个 批 次 索引 
for b in range(self. batch size): 
cap id = cap ids[b] # 目前 字幕 id 
# 目前 图 像 特征 向 量 
cap image vec-self. image data[self. fname caption tuples[cap id][0]] 
* 目前 图 像 字幕 
cap text = self. fname caption tuples[cap id][1] 
# 如 果 指 针 超 过 了 字幕 的 长 度 ， 请 重 置 
if self. cursor[b]4l»-self. cap length: 


self. cursor[b] - 0 


# 如 果 我 们 正在 处 理 一 组 新 的 capID 
# 第 一 个 样本 应 该 是 图 像 特征 向 量 
if first sample: 
batch data[b] = cap image vec 


batch labels[b] = np.zeros((vocabulary size),dtype-np.float32) 
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batch labels[b,cap text[0]] = 1.0 


# 如 果 我 们 从 已 处 理 的 批 次 中 继续 生成 当前 单词 作为 输入 ， 将 下 一 个 单词 作为 输出 
else: 
batch data[b] = self. word embeddings[cap text[self. cursor[b]],:] 
batch labels[b] - np.zeros((vocabulary size),dtype-np.float32) 
batch labels[b,cap text[self. cursor[b]41]] = 1.0 
* Increment the cursor 


self. cursor[b] = (self. cursor[b]*1l)$self. cap length 


对 于 batch size = 1 和 num unrollings = 5， 我们 可 视 化 数据 生成 的 过 程 ， 如 图 9-13 所 示 。 要 获 
得 更 大 的 批 处 理 大 小 ， 可 以 并 行 执行 此 类 序列 的 batch. size 数 。 


de SOS A dog sitting on grass EOS 
CNN 最 后 一 层 说 入 层 


031..] [591] 02 ] £:05—] p:01-] [5 pT 每 个 单词 的 词 向 量 


OHESOS) [OHEA J[ ones [ oreonsng) J[ onte )[ ontenss ] [OHEEOS Pieri 
ne-Hot 编 码 向 


A n E E 


展开 第 4 步 


(sitting) 


”展开 第 5 步 


is first samplesFlase 


图 9-13 数据 生成 的 可 视 化 过 程 


9.7.8 定义 LSTM 


现在 我 们 已 经 定义 了 数据 生成 器 来 输出 一 批 数据 , 用 一 批 图 像 特 征 向 量 进 行 调整 ， 并 逐 字 逐 句 
显示 各 个 图 像 的 字幕 ， 下 面 我 们 将 定义 LSTM 细胞 。LSTM 的 定义 和 训练 程序 与 我 们 在 第 8 章 中 
所 观察 到 的 类 似 。 

首先 定义 LSTM 细胞 的 参数 : 权重 值 、 偏 差 、 输 入 门 、 遗 忘 门 、 输 出 门 以 及 计算 候选 项 。 

# Input gate (i t) - 写 入 细胞 状态 的 记忆 量 

# 将 当前 输入 连接 到 输入 门 


ix = tf.Variable(tf.truncated normal([embedding size, num nodes], 
stddev-0.01)) 


+ 将 先前 的 隐藏 状态 连接 到 输入 门 
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im = tf.Variable(tf.truncated normal([num nodes, num nodes], stddev-0.01)) 

+ 输入 门 的 偏差 

ib = tf.Variable(tf.random uniform([1, num nodes],0.0, 0.01)) 

# 遗忘 门 (上 UO - 从 细胞 状态 丢掉 多 少 记忆 

# 将 当前 输入 连接 到 遗忘 门 

fx = tf.Variable(tf.truncated normal([embedding size, num nodes], 
stddev-0.01)) 

# 将 先前 的 隐藏 状态 连接 到 遗忘 门 

fm = tf.Variable(tf.truncated normal([num nodes, num nodes],stddev-0.01)) 

# 遗忘 门 的 偏差 

fb = tf.Variable(tf.random uniform([1, num nodes],0.0, 0.01)) 

# 候 选项 (c~_t) - 用 于 计算 当前 的 细胞 状态 

# 将 当前 输入 连接 到 候选 项 
cx = tf.Variable(tf.truncated normal([embedding size, num nodes], 
stddev-0.01)) 

# 将 之 前 的 隐藏 状态 连接 到 候选 项 

cm = tf.Variable(tf.truncated normal([num nodes, num nodes],stddev-0.01)) 

# 候选 项 的 偏差 

cb = tf.Variable(tf.random uniform([1, num nodes],0.0,0.01)) 

# 输出 门 - 有 多 少 输出 记忆 来 自 细胞 状态 

# 连接 当前 输入 到 输出 门 

ox = tf.Variable(tf.truncated normal([embedding size, 
num nodes],stddev-0.01)) 

# 连 接 之 前 的 隐藏 状态 到 输出 门 


om = tf.Variable(tf.truncated normal([num nodes, num nodes], stddev-0.01)) 
# 输出 门 的 偏差 


ob = tf.Variable(tf.random uniform([1, num nodes],0.0,0.01)) 
下 面 定义 softmax 权重 值 和 偏差 : 
* softmax 分 类 器 的 权重 值 和 偏差 


w = tf.Variable(tf.truncated normal([num nodes, 
vocabulary size],stddev-0.01)) 


b = tf.Variable(tf.random uniform([vocabulary size],0.0,0.01)) 
我 们 现在 定义 状态 和 输出 变量 ， 以 获取 训练 和 验证 数据 的 LSTM 的 状态 和 输出 : 


# 定义 并 保存 展开 后 状态 的 各 种 变量 

# 隐藏 状态 

saved output = tf.Variable(tf.zeros([batch size, num nodes]), trainable-False, 
name-'test cell') 

# 细 胞 状态 

saved state = tf.Variable(tf.zeros([batch size, num nodes]), trainable-False, 


name-'train cell') 
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# 测 试 数据 的 隐藏 状态 和 细胞 状态 变量 

saved test output = tf.Variable(tf.zeros([batch size, num nodes]), 
trainable-False, name-'test hidden') 

saved test state = tf.Variable(tf.zeros([batch size, num nodes]), 


trainable-False, name-'test cell') 


接 下 来 我 们 将 定义 LSTM 细胞 计算 : 


def lstm cell(i, o, state): 
input gate = tf.sigmoid(tf.matmul(i, ix) + tf.matmul(o, im) +ib) 
forget gate = tf.sigmoid(tf.matmul(i, fx) + tf.matmul(o, fm) +fb) 
update = tf.matmul(i, cx) + tf.matmul(o, cm) + cb 
state = forget gate * state + input gate * tf.tanh (update) 
output gate = tf.sigmoid(tf.matmul(i, ox) + tf.matmul(o, om) +ob) 
return output gate * tf.tanh(state), state 


然后 ， 将 迭代 计算 每 个 训练 步 中 num unrollings 的 LSTM 细胞 的 状态 和 输出 : 
# 这 两 个 Python 变量 在 展开 的 每 个 步 中 迭代 更 新 


output = saved output 


state = saved state 

# 对 于 展开 的 所 有 步 又， 循环 计算 隐藏 状态 〈 输 出 ) 和 细胞 状态 〈 状 态 ) 

for i in train inputs: 

output, state = lstm cell(i, output, state) 

# 添加 每 个 计算 的 输出 值 

outputs .append (output) 

# 计 算得 分 数值 

logits = tf.matmul(tf.concat(axis-0, values-outputs), w) + b 
# 预测 


train prediction = tf.nn.softmax(logits) 


然后 ， 将 LSTM 的 输出 和 状态 保存 到 我 们 之 前 定义 的 变量 ， 随 后 将 通过 对 展开 的 数 轴 求 和 并 
取 批 次 轴 上 的 平均 值 来 计算 损失 : 


# 展开 情况 下 的 保存 状态 

with tf.control dependencies([saved output.assign (output), 
saved state.assign(state)]): 

# 定义 损失 时 ， 我 们 需要 在 所 有 时 间 步 长 之 间 求 和 ， 但 是 在 批 次 轴 上 是 求 平均 值 


loss = 0 


Split logits = tf.split(logits,num or size splits-num unrollings) 
for lgt,lbl in zip(split logits, train labels): 
loss += tf.reduce mean(tf.nn.softmax cross entropy with logits v2 
(1ogits-lgt,labels-1lb1l)) 


最 后 ， 我 们 将 定义 一 个 优化 器 ， 以 针对 损失 优化 LSTM 和 softmax 层 的 
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optimizer = tf.train.AdamOptimizer (learning rate) 
gradients, v = zip(*optimizer.compute gradients (1loss)) 
gradients, _ = tf.clip by global norm(gradients, 5.0) 


optimizer = optimizer.apply gradients (zip (gradients, v)) 


生成 图 像 特征 向 量 、 准 备 好 提供 给 LSTM 的 数据 、 定 义 给 出 LSTM 所 需 的 相关 计算 ， 在 完成 
这 些 工 作 之 后 ， 接 下 来 我 们 对 验证 数据 集 生成 的 字幕 的 评估 指标 进行 讨论 。 


9.7.9 定量 评估 结果 


有 许多 不 同 的 技术 可 用 于 评估 生成 字幕 的 质量 和 相关 性 .我们 将 简要 讨论 4 个 可 用 于 评估 字幕 
的 指标 BLEU, ROGUE, METEOR 和 CIDEr。 这 些 指标 都 有 一 个 关键 目标 ， 即 评估 生成 文本 的 
充分 性 (生成 文本 的 含义 ) 和 流畅 性 (文本 的 语法 正确 性 ) 。 为 了 得 到 评估 的 结果 ， 我 们 将 使 用 候 
选 句子 和 参考 句子 ， 其 中 候选 句子 是 由 我 们 的 算法 预测 的 句子 /短语 ， 而 参考 句子 是 我 们 想 要 与 之 
比较 的 真实 句子 /短语 。 

1. BLEU 

双语 评估 研究 (BLEU) 是 由 Papineni 等 人 在 其 论文 《BLEU: 4 Method for Automatic Evaluation 
of Machine Translation》( 计 算 语言 学 协会 (ACL ) 第 40 届 年 会 论文 集 , 费城 ,2002 年 7 月 : 311-318) 
中 提出 的 。 它 以 独立 于 位 置 的 方式 度量 参考 和 候选 短语 之 间 的 n-gram 相似 性 。 这 意味 着 来 自 候 选 
项 的 n-gram 存在 于 参考 句子 中 的 任何 地 方 ， 并 且 被 认为 是 匹配 的 。BLEU 在 精度 方面 计算 n-gram 
相似 性 。BLEU 有 多 种 变 体 (BLEU-1、BLEU-2、BLEU-3 等 ) ， 表 示 n-gram 中 的 值 。 
X(vn-gramecanaidate) COUNtetip (n — gram) 

Xvn-gramecanaidate) Count (n — gram) 

X, Count (n-gram) 是 候选 句子 中 n-gram 的 总 出 现 次 数 。Coumterip (n-gram) 是 计算 n-gram 
的 Count (n-gram) 并 将 该 值 按 最 大 值 裁剪 。mz-sram 的 最 大 值 为 参考 语句 中 该 n-gram 的 出 现 次 数 。 
例如 ， 考 虑 以 下 两 句 话 : 


BLEU(candidate, ref) = x BP 


Candidate: the the the the the the the 
Reference: the cat sat on the mat 
Count("the") = 7 

Count("the") = 7 


County ("the") = 2 


注意 ,Zn-arameeonaiaato Contar gom 号 种 精确 的 表示 形式 ,实际 上 , 它 被 称 为 修正 n-gram 


X(vn-gramecandidate) Count(n-gram) 


精度 。 当 存在 多 个 参考 项 时 ，BLEU 被 认为 是 最 大 值 : 


BLEU = max(BLEU(candidate, ref;)) 


然而 ， 对 于 较 小 的 候选 短语 而 言 ， 修 正 的 n-gram 精度 趋向 于 更 高 ， 因 为 该 实体 会 除 以 候选 短 
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语 中 的 n-gram 的 数量 ， 这 意味 着 该 度量 将 使 模型 偏向 于 产生 更 短 的 短语 。 为 了 避免 这 种 情况 ， 惩 
罚 项 BP 被 添加 到 前 一 个 项 中 , 该 项 也 惩罚 短 的 候选 短语 .当然 ,BLEU 存在 一 些 局 限 性 , 例如 BLEU 
在 计算 分 数 时 忽略 同义词 而 不 考虑 召回 , 这 也 是 评估 准确 性 的 重要 指标 .此 外 , 对 于 某 些 语言 来 说 ， 
BLEU 似乎 是 一 个 糟糕 的 选择 。 然 而 ， 这 是 一 个 简单 的 度量 ， 有 关 实 验 已 经 表明 ， 在 大 多 数 情况 下 
BLEU 与 人 类 判断 有 很 好 的 相关 性 。 

2. ROUGE 

由 林 耀 文 在 其 论文 《4 Package for Automatic Evaluation of Summaries) | (Proceedings of the 
Workshop on Text Summarization Branches Out, 2004) 中 提出 的 ROUGE (Recall-Oriented Understudy 
for Gisting Evaluations) 可 以 被 认为 是 BLEU 的 变 体 ， 使 用 召回 指标 作为 基本 性 能 指标 。 ROGUE 
指标 如 下 : 


Countmatch 
Countref 
这 里 ，Countmatcn 是 参考 集合 中 存在 的 与 候选 项 一 致 的 n-gram 数 ，Countrey 是 参考 集合 中 存 
在 的 n-gram 总 数 。 若 存在 多 个 参考 项 ， 则 ROUGE-N 计算 如 下 : 


ROUGE- N = 


ROUGE — N = max(ROUGE — N(ref;, candidate)) 


这 里 ，refi 是 可 用 参考 池 中 的 某 个 参考 项 。ROGUE 有 许多 变 体 ， 它 们 对 标准 ROGUE 度量 进 
行 了 各 种 改进 。ROGUE-L 是 基于 在 候选 语句 和 参考 语句 对 之 间 找 到 的 最 长 公共 子 序 列 来 计算 分 数 
的 。 注 意 ， 在 这 种 情况 下 ， 最 长 公共 子 序列 不 需要 是 连续 的 。 接 下 来 ，ROGUE-W 是 基于 最 长 公共 
子 序列 来 计算 得 分 ， 该 子 序 列 被 子 序列 中 存在 的 片段 数量 所 惩罚 。ROGUE 也 有 局 限 性 ， 例 如 不 考 
虑 分 数 的 计算 精度 。 

3. METEOR 

METEOR (Metric for Evaluation of Translation with Explicit Ordering) 是 由 Michael Denkowski 
和 Alon Lavie 在 《Meteor Universal: Language Specific Translation Evaluation for Any Target Language) 

(Proceedings of the Ninth Workshop on Statistical Machine Translation, 2014: 376-3800 中 提出 的 ， 

是 一 种 更 高 级 的 关于 执行 候选 句子 和 参考 句子 之 间 对 齐 方面 的 评估 度量 。METEOR 4 BLEU 和 
ROUGE 的 不 同 之 处 在 于 METEOR 考虑 了 单词 的 位 置 。 在 计算 候选 句子 和 参考 句子 之 间 的 相似 性 
时 ， 以 下 情况 将 被 视 为 匹配 。 

€ Exact: 候选 项 的 单词 与 参考 句子 中 的 单词 完全 匹配 。 

© Stem 词 干 与 参考 句子 中 的 单词 匹配 . 

€ Synonym: 候选 句子 中 的 单词 是 参考 句子 中 单词 的 同义词 。 

为 了 计算 METEOR 得 分 , 参考 句子 和 候选 句子 之 间 的 匹配 可 以 在 图 9-15 的 帮助 下 给 出 , 如 图 
9-14 所 示 。 然 后 ， 基 于 候选 句子 和 参考 句子 中 存在 的 匹配 数 来 计算 精度 (P) 和 召回 率 (R) 。 最 
后 ， 计 算 METEOR 得 分 : 
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Enean ^ ———————á(-yx B 
mean ETETA y x frag?) 


这 里 ，a、B 和 Y 是 可 调 参 数 ， 并 且 frag 惩罚 碎片 匹配 ， 以 便 优 选 在 匹配 中 具有 较 小 间 阶 的 候 
选 句子 以 及 紧密 遵循 参考 句子 的 单词 顺序 。 通 过 查看 最 终 unigram 映射 中 的 交叉 数量 来 计算 frag, 
如 图 9-14 所 示 。 


the cat sat on the mat the cat sat on the mat 


onthe mat sat the cat onthe mat sat the cat 
图 9-14 ”两 个 字符 串 多 种 可 能 性 下 的 对 齐 方式 
在 图 9-15 中 ， 我 们 可 以 看 到 候选 句子 和 参考 句子 之 间 的 匹配 情况 。 例 如 ， 纯 黑色 圆圈 表示 完 
全 匹配 ， 虚 线 空心 圆 轿 表 示 完 全 不 匹配 ， 浅 色 虚 线 圆 圈 表 示 带 有 干扰 的 匹配 。 


Bob decided to flee when he observed Tom as Bob owed money 


"le | || |i 


Candidate 
Sentence 

8 

F1 

® 

El 

© 

Dj 


L| 
det * CCE 


4] 9-15 METEOR 单词 匹配 表 


METEOR 在 计算 上 更 复杂 ， 但 经 常 被 发 现 与 BLEU 相 比 ， 它 与 人 类 判断 的 相关 性 更 高 ， 这 表 
明 METEOR 是 比 BLEU 更 好 的 评估 指标 。 

4. CIDEr 

是 由 Ramakrishna Vedantam 等 人 在 论文 (CIDEr: Consensus-based Image Description Evaluation) 

(IEEE Conference on Computer Vision and Pattern Recognition, CVPR, 2015) 中 提出 的 ， 是 评估 候 

选 句 子 对 给 定 参 考 语句 集 之 间 一 致 性 的 另 一 种 度量 。CIDEr 用 于 衡量 候选 句子 的 语法 、 显 著 性 和 准 
确 性 《精确 度 和 召回 率 ) 的 情况 。 

首先 , CIDEr 通过 TF-IDF 方法 对 候选 句子 和 参考 句子 中 发 现 的 每 个 n-gram 进行 加 权 ， 以 使 更 
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常见 的 n-gram〔 例 如， 以 单词 为 例 ， 诸 如 a 和 the 之 类 ) 具有 较 低 的 权重 值 ， 而 少见 的 单词 会 有 更 
高 的 权重 值 。 最后, 关于 CIDEr 的 计算 , 则 是 在 候选 句子 与 参考 句子 中 以 TF-IDF 方法 加 权 n-gram 
形成 的 向 量 ， 再 计算 这 两 个 向 量 之 间 的 余弦 相似 度 : 

1 X;TF — IDF,(cand).TF — IDE/(ref;) 

m ||TF — IDF,(cand)|lITF — IDF,(ref;)ll 


CIDEr(cand,ref) — 


这 里 ，cand 是 候选 句子 ，ref 是 参考 句子 的 集合 ，re 所 是 ref 的 第 j 个 句子 ，m 是 给 定 候选 项 的 
参考 句子 的 数量 。 最 重要 的 一 点 是 ，TF 一 1DF,(cand) 是 候选 句子 中 的 所 有 n-gram 计算 得 到 的 
TF-IDF 值 ， 并 形成 向 量 。TF 一 ID,(re 所 ) 和 参考 语句 re 所 是 同一 个 向 量 。|ITF -DROIR E 
的 大 小 。 

总 的 来 说 , 我 们 需要 知道 的 是 , 截至 到 目前 为 止 , 在 自然 语言 处 理 的 所 有 不 同 任务 中 没有 发 现 
最 佳 模 型 , 没有 明确 的 赢家 能 够 在 自然 语言 处 理 中 面 对 所 有 不 同 的 任务 中 都 表现 良好 。 这 些 评估 指 
标明 显 依赖 于 具体 工作 任务 本 身 ， 所 以 应 该 根据 任务 的 具体 情况 做 合理 的 选择 。 

5.BLEU-4 随时 间 变 动 的 情况 

在 图 9-16 中 ， 我 们 给 出 了 模型 实验 的 BLEU-4 值 随时 间 的 演变 情况 。 我 们 可 以 看 到 分 值 随 着 
时 间 的 推移 而 上 升 并 趋 近 0.3. 注意 ,， MS-COCO 数据 集 的 当前 技术 水 平 约 为 0.369 (Bottom-Up and 
Top-Down Attention for Image Captioning and Visual Question Answering, Anderson and others, 2017) , 
这 是 通过 更 复杂 的 模型 以 及 采用 更 高 级 的 正则 化 获得 的 。 此 外 ，MS-COCO 的 实际 完整 训练 集 大 小 
几乎 是 目前 所 使 用 的 训练 集 的 三 倍 。 因此, BLEU-4 得 分 为 0.3 且 训 练 数据 有 限 , 在 使 用 单个 LSTM 
细胞 且 没有 进行 特殊 的 正则 化 处 理 ， 这 已 经 是 一 个 非常 好 的 结果 了 。 


BLEU-4 Score Over Time 


E] 


BLEU-4 Score 


8 


0 2500 5000 7500 10000 12500 15000 17500 20000 
Iterations 


图 9-16 BLEU-4 用 于 图 像 字幕 自动 生成 示例 随 着 时 间 的 演变 情况 


9.7.10 “为 测试 图 像 集 生成 字幕 


现在 让 我 们 了 解 一 下 模型 为 测试 图 像 生成 了 哪些 字幕 。 
经 过 100 步 后 ， 模 型 学 到 的 唯一 内 容 就 是 字幕 以 SOS 标签 开头 ， 并 且 有 一 些 单词 后 面 跟着 一 
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HÈ EOS 标签 ， 


如 图 9-17 所 示 。 


SOS a a a EOS a EOS a EOS a EOS a EOS a EOS 


SOS a a a EOS a EOS a EOS a EOS a EOS a EOS 


SOS a 3 4 EOS a EOS a EOS a EOS a EOS a EOS 


SOS a a a EOS a EOS a EOS a EOS a EOS a EOS 


SOS a a a EOS a EOS a EOS a EOS a EOS a EOS 


c SOS a a a EOS a EOS a EOS a EOS a EOS a EOS| 


SOS a a a EOS a EOS a EOS a EOS a EOS a EOS| 


SOS a a a EOS a EOS a EOS a EOS a EOS a EOS| 


SOS a a a EOS a EOS a EOS a EOS a EOS a EOS| 


Le 505a a a EOS a EOS a EOS a EOS a EOS a EOS 


图 9-17 100 步 之 后 图 像 字幕 自动 生成 的 示例 


在 1000 步 之 后 ， 如 图 9-18 所 示 ， 我 们 的 模型 识别 可 以 对 图 像 进行 识别 并 生成 一 些 短语 ， 且 可 
以 正确 识别 出 某 些 图 像 中 的 对 象 。 但 是 ， 文 本 似乎 简短 而 模糊 ， 且 有 些 图 像 描 述 是 不 正确 的 。 


SOS a train of a clock on a street EOS. 
T - 


pom 


e 505a man standing on a feld EOS 


"m 505 a man in a field EOS 


506 a train with a clock on a strest EOS 


O5 a train of a dock on a street EOS. 


SOS a man is sitting on a table LOS 
OS a man in a building EOS 


505 a plate of a plate of a table with a table EOS. 


图 9-18 1000 步 之 后 图 像 字幕 自动 生成 的 示例 
经 过 2000 步 后 ， 我 们 的 模型 已 经 非常 善于 生成 由 正确 语法 组 成 的 可 以 表达 的 短语 ， 如 图 9-19 


所 示 。 
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SOS a bus is parked on a street EOS = SOS a large bost is sitting on a beach EOS 

< 一 sp of elephants standing on a feid tos 2 K SOS a man holding a woman holding a table EOS 
"fs ty 

更 OS a girate standing in the grass EOS E 505 a person is flying a kite in the water EOS 
m OS a large sign sign with a clock on a street EOS E 05 a plate of a plate of food and a plate of food EOS 
ul 


SOS a man is playing a tennis ball EOS EUM sosa mn riding a surfboard on a besch EOS 


E 


9-19 2000 步 之 后 图 像 字幕 自动 生成 的 示例 


经 过 5,000 步 后 ， 我 们 的 模型 可 以 正确 识别 大 部 分 图 像 ， 如 图 9-20 所 示 。 此 外 ， 它 可 以 生成 
高 度 相关 且 语 法 正确 的 短语 来 解释 图 像 中 正在 发 生 的 事情 。 但 它 并 不 是 完美 的 , 例如 我 们 的 算法 得 
到 的 第 4 个 图 像 明显 是 错误 的 ， 图 像 实际 上 是 一 个 建筑 物 ， 而 算法 将 它 识别 为 城市 中 的 东西 ， 但 无 
法 区 分 建筑 物 ， 将 其 误 认为 是 时 钟 。 第 8 张 图 像 也 被 错误 识别 ， 图 像 描 绘 了 天 空中 的 飞机 ， 但 算法 
将 其 误 认 为 是 放风 第 的 人 。 


m SOS a red and white bus i» parked on a street EOS. SOS a boat boat on a beach with a boat EOS. 
T 3 K 

b. SOS a group of elephants standing in a feld EOS F SOS a man is holding a cell phone EOS 

Ẹ 

: uS 

4 SOS a herd of sheep grazing in a field EOS OS a man flying a kite on a runway EOS. 

上 x 
SOS a stroet sign with a clock on it EOS E SOS a plate of food on a plate EOS 


Ls SOS a man holding a tennis racket on a tennis court EOS BE — SOS man in a wetsuit suit on a surfboard EOS| 
=E 


图 9-20 5000 步 之 后 图 像 字幕 自动 生成 的 示例 
经 过 10 000 步 后 ， 我 们 的 算法 已 经 非常 擅长 描述 图 像 了 。 它 正确 地 描述 了 大 多 数 图 像 ， 但 它 
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仍然 给 出 了 第 9 个 图 像 


另 一 个 观察 是 , 第 7 张 图 像 实际 上 是 一 名 好 


4 错误 表达 。 图 像 显示 了 比萨 , 算法 似乎 认为 这 是 三 明治 , 如 图 9-21 所 示 。 
FE 持 手机 的 女性 ,但 算法 似乎 认为 是 一 个 男人 。 但 是 , 我 


—- 


中 有 人 ， 因 此 该 算法 可 能 误 将 前 景 中 的 人 当 作 背景 。 


可 以 看 到 该 图 像 背景 


SOS a bus is parked on a street EOS 


SOS a giraffe standing in a field with a tree EOS 


SOS a large building with a clock on the side of a street EOS 


SOS a boat is sitting on a river EOS. 


SOS a man is holding a cell phone EOS 


505 a large jet flying through the sky EOS 


OS a plate of food with a sandwich and a sandwich EOS 


= 


SOS a man is holding a tennis racket on a tennis court EOS Be SOS a man riding a surfboard on a surfboard EOS 


图 9-21 10 000 步 之 后 图 像 字幕 自动 生成 的 示例 
需要 再 次 说 明 的 一 点 是 , 这 里 使 用 的 数据 样本 整训 练 数据 的 三 分 之 一 , 是 在 这 种 情况 下 
获得 的 结果 ， 而 且 模 型 使 用 的 是 简单 的 单 细胞 的 LSTM 模型 。 我 们 鼓励 大 家 通过 使 用 完整 训练 数 
据 以 及 使 用 具有 更 好 正规 化 〈Dropout) 的 多 层 LSTM ER GRU) 来 促使 模型 性 能 最 大 化 。 


"ES 
只 是 完 


9.7.11 使 用 TensorFlow RNN API 和 预 训练 的 GloVe 词 向 量 


至 此 ,我 们 已 经 从 头 开 始 实现 了 所 有 内 容 , 对 这 种 系统 的 底层 机 制 有 了 更 深入 的 理解 ,在 这 里 ， 
我 们 将 讨论 如 何 使 用 TensorFlow RNN API 以 及 预 训练 的 GloVe 词 向 量 ,以 减少 代码 量 和 算法 的 学 
习 , 具 体 代 码 见 ch9 文 件 夹 中 的 9_lstm_image_caption_pretrained_wordvecs_rnn_apiipynb 代 码 文件 。 

我 们 将 首先 讨论 如 何 下 载 词 向 量 , 然后 讨论 如 何 仅 从 下 载 的 文件 中 加 载 相关 的 词 向 量 , 因为 预 
训练 的 GloVe 向 量 的 词汇 量 大 约 为 400 000 个 单词 ， 而 我 们 的 只 有 18000 个 单词 。 接 下 来 ， 我 们 
将 对 字幕 进行 一 些 基本 的 拼写 校正 ， 因 为 这 里 似乎 存在 很 多 拼写 错误 。 然 后 我 们 将 讨论 如 何 使 用 
RNN API 中 的 t£nn.mn. cell LSTMCell 模块 处 理 已 “清洗 ”的 数据 。 

1. 加 载 GloVe 词 向 量 


首先 ， 从 https://nlp.stanford.edu/projects/glove/ 下 载 现成 的 GloVe 词 向 量 文件 ， 并 将 其 放 在 ch9 
文件 夹 中 。 接 下 来 ， 我 们 将 定义 一 个 NumPy 数组 来 保存 来 自 GloVe 加 载 的 相关 词 向 量 : 
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pret embeddings = np.empty(shape-(vocabulary size,50),dtype-np.float32) 


然后 , 我 们 将 打开 包含 GloVe 词 向 量 的 ZIP 文件 并 逐 行 读 取 。ZIP 文件 包含 具有 不 同 词 向 量 大 
小 的 GloVe 的 多 种 不 同 变 体 〈 例 如 50 100) 。 我 们 将 使 用 ZIP 文件 中 的 glove.6B.50d.txt 文件 ， 因 
为 这 是 最 小 的 文件 ， 且 足以 用 于 我 们 试图 解决 的 问题 。 文件 中 的 每 一 行 都 具有 以 下 格式 (以 空格 分 
隔行 中 的 每 个 值 ) : 


dog 0.11008 -0.38781 -0.57615 -0.27714 0.70521 .. 


在 下 面 的 代码 中 , 我 们 将 展示 如 何 从 文件 中 提取 相关 的 词 向 量 。 首先 , 我 们 将 打开 ZIP 文件 并 
读 取 文本 文件 (glove.6B.50d.txt) : 


with zipfile.ZipFile('glove.6B.zip') as glovezip: 
with glovezip.open('glove.6B.50d.txt') as glovefile: 
接 下 来 ,我 们 将 枚 举 文本 文件 中 的 每 一 行 ， 读 取 该 行 对 应 的 单词 (该 行 的 第 一 个 元 素 ) ， 并 读 
取 该 单词 的 相应 词 向 量 : 


for li, line in enumerate (glovefile): 

# 解码 该 行 以 除去 任何 不 可 解析 的 符号 

line tokens = line.decode('utf-8').split(' ') 
# 获取 单词 

word = line tokens[0] 

# 获取 词 向 量 


vector = [float(v) for v in line tokens[1:]1] 


然后 , 如 果 在 数据 集中 找到 该 单词 , 则 将 该 词 向 量 保存 在 我 们 之 前 定义 好 的 用 于 存储 词 向 量 的 
Numpy 数组 中 。 我 们 将 把 一 个 指定 的 向 量 保存 在 由 dictionary 变量 给 出 的 行 中 ， 该 变量 包含 单词 到 
WE ID 的 映射 。 同 时 ， 除 了 指定 的 单词 之 外 ， 我 们 还 将 处 理 通过 在 单词 的 未 尾 添加 搬 号 和 s 而 生 
成 的 单词 【例如 ，cat-veats) 。 我 们 使 用 对 应 于 原始 单词 的 词 向 量 《〈 例 如 ，cat) 初始 化 这 两 个 变 
体 。 我 们 还 会 把 字幕 中 与 GloVe 中 某 些 单词 匹配 的 所 有 单词 保存 到 words in glove 列表 中 ， 以 便 
于 下 一 步 操作 


if word in dictionary.keys(): 
words in glove.append (word) 
pret embeddings[dictionary[word],:] = vector 
words found += 1 


found word ids.append (dictionary [word]) 


word with s = word + 'V's' 

if word with s in dictionary.keys(): 
pret embeddings[dictionary[word with s],:] -vector 
words found += 1 


found word ids.append(dictionary[word with s]) 
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MS-COCO 数据 集中 存 一 些 拼写 错误 〈 在 字幕 中 ) 。 因 此 ， 为 了 最 大 限度 地 利用 预 训练 的 词 向 
量 ， 我 们 需要 纠正 这 些 拼写 错误 ， 以 便 为 这 些 单词 分 配 相 应 的 词 向 量 。 为 了 纠正 拼写 ， 我 们 使 用 以 
下 程序 。 
首先 ， 我 们 将 找 出 在 GloVe 文件 中 找 不 到 的 单词 的 ipP《〈 可 能 是 由 于 拼写 错误 ) : 


notfound word ids = list(set(list(range(0,vocabulary size))) 


-set(found word ids)) 


然后 ， 如 果 在 字幕 中 找到 其 中 的 任何 单词 ， 我 们 将 使 用 以 下 罗 辑 来 更 正 这 些 单词 的 拼写 。 

使 用 字符 串 匹 配 来 找到 不 正确 的 单词 (由 ew 表示 ) 和 words in glove 列表 中 的 所 有 单词 (每 
个 由 gw 标识 ) 之 间 的 相似 性 : 

# 对 于 每 个 在 预 训练 词 向 量 中 找 不 到 的 单词 ， 找 到 最 相似 的 拼写 


for gw in words in glove: 


cor, found sim = correct spellings.correct wrong word (Cw, gw, cap) 


如 果 这 种 相似 性 大 于 0.9 〈 启 发 式 选择 ) ， 我 们 将 用 以 下 逻辑 替换 不 正确 的 单词 。 我 们 不 得 不 
对 一 些 单词 进行 人 工 修正 , 因为 某 些 单词 中 存在 多 个 高 度 相似 的 单词 (例如 ,stting 类 似 于 setting): 


def correct_wrong_word (cw, gw, cap) : 


nt 
拼写 纠正 逻辑 
这 是 一 个 非常 简单 的 逻辑 ， 用 最 高 相似 度 的 单词 替换 拼写 错误 的 单词 。 有 些 单词 是 手动 修正 的 ， 因 为 
某 些 单词 存在 高 度 相似 的 单词 。 
v 
correct_word = None 
found_similar_word = False 
sim = string_similarity (gw,cw) 
if sim>0.9: 
if cw != 'stting' and cw != 'sittign' and \ 
cw != 'smilling' and \ 
cw!='skiies' and cw!='childi' and cw!='sittion' and \ 
cw!='peacefuly' and cw!='stainding' and \ 
cw != 'staning' and cw!-'lating' and cw!-'sking' and V 


cw!-'trolly' and cw!-'umping' and cw!-'earing' and \ 


cw !-'baters' and cw !-'talkes' and cw !-'trowing' and \ 
cw !-'convered' and cw !-'onsie' and cw !-'slying': 
print(gw,' ',cw,' ',sim,' (',cap,')') 


correct word = gw 
found similar word = True 
elif cw == 'stting' or cw == 'sittign' or cw == 'sittion': 


correct word = 'sitting" 


虽然 
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found similar word = True 
elif cw == 'smilling': 

correct word = 'smiling' 

found similar word - True 
elif cw = 'skiies': 

correct word - 'skis' 

found similar word = True 
elif cw = 'childi': 

correct word = 'child' 


found similar word - True 


elif cw == 'onsie': 

correct word = cw 

found similar word - True 
elif cw --'slying': 

correct word - 'flying' 

found similar word - True 
else: 


raise NotlImplementedError 


else: 
correct word - cw 
found similar word - False 


return correct word, found similar word 


并 非 所 有 的 拼写 错误 都 会 被 前 面 的 代码 捕获 到 , 但 是 大 多 数 拼写 错误 都 能 被 定位 , 这 对 我 


们 的 项 目 来 说 已 经 足够 了 。 
3. 使 用 TensorFlow RNN API 进行 预 训练 词 向 量 


在 对 


图 像 字幕 数据 进行 预 处 理 之 后 ， 我 们 将 继续 学 习 如 何 将 联合 使 用 RNN API 和 预先 训练 的 


GloVe 词 向 量 。 首 先 ， 我 们 将 讨论 如 何 使 GloVe 向 量 C500 的 词 向 量 大 小 与 图 像 特征 向 量 (1000) 


的 大 小 相 


匹配 。 此 后 ， 我 们 将 探索 如 何 使 用 TensorFlow RNN API 的 现 有 LSTM 模块 来 学 习 数据 。 


最 后 , 我 们 将 学 习 如 何 将 不 同 模 态 (图 像 和 文本 ) 的 数据 提供 给 模型 ， 因 为 图 像 和 文本 必须 以 不 同 
的 方式 处 理 。 下 面 逐 步 讨论 相关 的 细节 ， 关 于 完整 的 学 习 模 型 如 图 9-22 Bras. 
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图 9-22 RNN API 和 预先 训练 的 GloVe 词 向 量 联合 应 用 的 示意 图 
(1) 定义 预 训练 词 嵌 入 层 和 适应 层 


首先 , 我 们 将 定义 一 个 TensorFlow 变量 来 包含 预 处 理 的 词 向 量 。 我 们 将 其 留 作 可 训练 的 变量 ， 
因为 我 们 只 对 某 些 单词 进行 了 粗略 的 初始 化 (也 就 是 说 , 我 们 使 用 相同 的 词 向 量 来 表示 单词 的 “'s” 


形式 的 扩展 ) 。 因 此 ， 随 着 训练 的 继续 ， 词 向 量 将 得 到 改善 ，: 


embeddings = tf.get variable( 'glove embeddings',shape- [vocabulary size, 50], 
initializer-tf.constant initializer(pret embeddings, dtype-tf.float32)) 
然后 ,我 们 将 定义 适应 层 的 权重 值 和 偏差 。 适 应 层 接 收 [batch_size，50] 大 小 的 输入 ， 这 是 一 批 


GloVe 词 向 量 ， 我 们 将 它 转 换 为 [batch_size，1000] 大 小 的 一 批 向 量 。 这 将 充当 线性 层 ， 该 线性 层 使 
GloVe 词 向 量 调整 为 正确 的 输入 大 小 (以 匹配 图 像 特征 向 量 的 大 小 》 


with tf.variable scope('embeddings') 


# 我 们 需要 将 输入 的 大 小 与 LSTM 匹配 ， 始 终 与 input_size 相同 
# 为 此 我 们 使 用 一 个 密集 层 ， 它 的 输入 大 小 为 50 并 产生 大 小 为 1000 的 输入 输入 大 小 ) 

embedding dense = tf.get variable('embedding dense', shape-[50,1000], 

dtype-tf.float32,initializer-tf.contrib.layers.xavier initializer()) 
embedding bias = tf.get variable('embedding bias', dtype-tf.float32, 
initializer-tf.random uniform( shape-[1000], minval--0.1, maxval-0.1)) 
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(2) 定义 LSTM 细胞 和 softmax 层 
接 下 来 ,我 们 将 定义 LSTM 细胞 并 将 它 用 于 图 像 建 模 ， 然 后 是 一 系列 单词 以 及 softmax 层 ， 该 
softmax 层 将 LSTM 细胞 的 输出 转换 为 概率 预测 。 我 们 将 使 用 DropoutWrapper( 类 似 于 第 8 章 LSTM 
生成 文本 的 应 用 ) 来 提高 性 能 : 


* LSTM 细胞 和 Dropout 单元 
with tf.variable scope('rnn'): 
lstm = tf.nn.rnn cell.LSTMCell (num nodes) 
# 利用 Dropout 来 提高 性 能 
dropout lstm = rnn.DropoutWrapper(cell-lstm, input keep prob-0.8, 
output keep prob-0.8, state keep prob-1.0, dtype-tf.float32) 


在 这 里 ， 我 们 将 定义 softmax 层 的 权重 值 和 偏差 


with tf.variable scope('rnn'): 

w = tf.Variable(tf.truncated normal([num nodes, vocabulary size], 
stddev-0.01), name-'softmax weights', trainable-True) 

b - tf.Variable(tf.random uniform([vocabulary size],0.0,0.01), 


name-'softmax bias',trainable-True) 


(3) 定义 输入 和 输出 
现在 定义 输入 和 输出 的 占 位 符 , 它们 将 保存 训练 模型 所 需 的 输入 和 输出 。 我 们 将 有 三 个 重要 的 
占 位 符 ， 分 别 为 : 


€ is train text: 这 是 一 个 num unrollings 的 占 位 符 长 列表 , 其 中 每 个 占 位 符 都 包含 一 个 布尔 
值 ， 表示 当前 是 否 在 给 定时 间 步 长 内 输入 图 像 特征 向 量 或 文本 。 这 是 必 不 可 少 的， 因为 
我 们 稍 后 将 定义 输入 处 理 操作 条 件 ( 如 果 布尔 值 为 false， 就 按 原样 返回 图 像 特征 ; 如 果 
布尔 值 为 true， 就 对 输入 执行 tfnn.embedding lookup) . 

€ tain inputs: 这 是 含有 num unrollings 占 位 符 的 占 位 符 列表 ， 其 中 每 个 占 位 符 包含 
[batch size，1000] 大 小 的 输入 (其 中 1000 是 input size ) 。 对 于 图 像 ， 将 输入 图 像 特 征 向 
量 ， 而 对 于 文本 ， 将 从 字幕 中 输入 一 批 单 词 ID ( 由 包含 单词 及 其 唯一 ID 的 dictionary 3E 
量 返回 ) 。 我 们 将 为 每 个 单词 ID 附加 999 个 零 ， 以 使 输入 大 小 为 1000 (处理 时 丢弃 这 
999 个 零 ) 。 

€ train labels: 这 是 一 个 占 位 符 列表 ， 其 中 包含 num_unrollings 占 位 符 ， 它 将 包含 指定 输入 
的 相应 输出 (如 果 输 入 是 图 像 特征 向 量 ， 就 为 SOS; 如 果 输 入 是 单词 ， 就 为 字幕 中 的 下 
一 个 单词 ) 。 


代码 如 下 : 


is train text, train inputs, train labels = [],[];[] 
for ui in range (num unrollings): 
is train text.append(tf.placeholder(tf.bool, shape-None, 


name-'is train text data $d'$ui)) 
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train inputs.append(tf.placeholder (tf.float32, 
shape=[batch size,input size],name-'train inputs $d'$ui)) 
train labels.append(tf.placeholder(tf.int32, shape-[batch size], name = 
'train labels $d'$ui)) 


(4). 处 理 图 像 和 文本 的 方式 不 同 

这 里 , 我 们 将 理解 使 用 预 训练 词 向 量 时 与 从 头 开 始 学 习 词 向 量 时 最 关键 的 区 别 之 一 。 当 我 们 从 
头 开始 学 习 词 向 量 时 ,可 以 灵活 地 使 词 向 量 大 小 与 图 像 特征 向 量 大 小 相 匹配 。 具 有 相同 的 输入 维度 
是 必须 的 ， 因 为 LSTM 无 法 处 理 具 有 任意 维度 的 输入 。 但 是 ， 由 于 现在 我 们 使 用 的 是 预 处 理 的 词 
向 量 , 并 且 它们 与 我 们 指定 的 输入 大 小 不 匹配 , 我 们 需要 使 用 将 50 维 输入 映射 到 1000 维 输入 的 适 
应 层 。 此 外 ， 就 TensorFlow 而 言 ， 我 们 不 需要 进行 先前 的 图 像 特征 向 量变 换 。 下 面 将 详细 介绍 如 
何 实现 这 一 点 。 

首先 ， 使 用 t£.cond 操作 来 区 分 两 种 不 同 的 处 理 机 制 。ttcond (pred, true fn, false fn) 操作 可 
以 在 不 同 的 操作 (true fn 和 false fn) 之 间 切 换 ， 有 具体 取决 于 pred 的 布尔 值 是 true 还 是 false。 我 
们 需要 做 到 以 下 两 点 : 


© 如果 数据 是 图 像 特征 向 量 ( is_train_text A false ), 就 不 需要 额外 处 理 ,我 们 将 使 用 tfidentity 
操作 简单 地 转发 数据 。 

© ”如 果 数 据 是 文本 (单词 ID，is_train_text 为 true) ， 我 们 首先 需要 对 一 批 单词 ID (在 第 0 
列 中 找到 的 ) 执行 tnn.embedding lookup 操作 。 接 下 来 ， 我 们 将 通过 适应 层 传递 返回 的 
词 向 量 ( 大 小 为 [batch_size，50] ) ， 以 使 用 embedding dense 和 embedding bias 生成 词 向 
量 [batch_size，1000] ( 类似 于 没有 非 线性 激活 的 完全 连接 神经 网 络 的 典型 层 ) 。 


我 们 将 处 理 后 的 输入 写 入 train. inputs processed: 


train inputs processed = [] 
for ui in range (num unrollings): 
train inputs processed.append( 
tf.cond(is train text[ui], 
lambda: tf.add( 
tf.matmul(tf.nn.embedding lookup( 
embeddings, tf.reduce sum(tf.cast( 
train inputs[ui],tf.int32), 
axis-1) 
),embedding dense),embedding bias), 
lambda: tf.identity(train inputs[ui])) 
) 


我 们 还 需要 设置 tain_inputs_ processed 列表 中 找到 的 每 个 张 量 的 形状 , 因为 在 执行 t£.cond 操作 
后 ， 形 状 信息 将 丢失 。 此 外 ，LSTM 细胞 计算 也 需要 形状 信息 : 


[t in.set shape([batch size,input size]) for t in in train inputs processed] 
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(5) 定义 LSTM 输出 计算 
接 下 来 ， 我 们 将 定义 LSTM 细胞 的 初始 状态 : 


initial state = lstm.zero state (batch size, dtype-tf.float32) 


然后 ,使 用 t£nn.dynamic mn 函数 计算 num unrollings 窗口 中 所 有 时 间 步 长 的 输出 。 下 面 给 出 
在 一 个 时 间 步 长 上 计算 LSTM 的 输出 : 


* 给 出 [num unrolling, batch size, num nodes] 大 小 的 输出 

train outputs, initial state = tf.nn.dynamic rnn( 

dropout lstm, tf.concat([tf.expand dims(t in,axis-0) for t in in 
train inputs processed],axis-0), time major-True, 


initial state-i 


itial state) 
(6) 定义 logits 和 预测 
先前 计算 的 train output 将 是 [num unrollings,batch size,vocabulary size] 大 小 ， 这 被 称 为 


time-major 格式 。 然 后 ， 为 了 计算 所 有 num unrollings 时 间 步 长 的 LSTM 输出 的 logits 和 预测 ， 我 
们 将 重 塑 最 终 输 出 ， 代 码 如 下 : 


final output = tf.reshape (train outputs, [-1,num nodes]) 
logits = tf.matmul(final output, w) + b 


train prediction - tf.nn.softmax(logits) 


CD 定义 序列 损失 
然后 ， 将 logit 和 标签 重新 整形 为 time-major 格式 ， 因 为 这 是 我 们 正在 使 用 的 loss 函数 所 要 求 
的 : 


time major train logits = tf.reshape(logits, [num unrollings,batch size, 
vocabulary size]) 

time major train labels - tf.reshape(tf.concat(train labels,axis-0), 
[num unrollings,batch size]) 


现在 使 用 t£contrib.seq2seq.sequence loss 函数 计算 损失 。 我 们 需要 对 整个 批 次 的 损失 进行 
需要 先 对 时 间 步 长 进行 求 和 : 


loss = tf.contrib.seq2seq.sequence loss( 


logits 


= tf.transpose(time major train logits,[1,0,2]), 
targets = tf.transpose(time major train labels), 
weights- tf.ones([batch size, num unrollings], 
dtype-tf.float32), 

average across timesteps-False, 
average across batch-True 


) 


loss = tf.reduce sum(loss) 
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(8) 定义 优化 器 
最 后 ， 我 们 将 定义 优化 器 ， 该 优化 器 将 针对 先前 定义 的 损失 优化 预 训练 词 嵌入 层 、 适 配 层 、 
LSTM 细胞 和 softmax 权重 值 。 随 着 时 间 的 推移 ， 我 们 将 使 用 AdamOptimizer 和 学 习 率 衰减 来 提高 
性 能 。 我 们 像 第 8 章 LSTM 的 应 用 生成 文本 中 所 做 的 那样 使 用 衰减 学 习 率 : 


3 这 个 变量 和 操作 用 于 衰减 学 习 率 ， 正 如 我 们 在 第 8 章 中 看 到 的 那样 
global step = tf.Variable(0, trainable-False) 
inc gstep = tf.assign(global step,global step + 1) 


# 定义 一 个 衰减 的 学 习 率 

learning rate = tf.train.exponential decay( 

0.001, global step, decay steps-1, decay rate-0.75, 
staircase-True) 

* 定义 Adam 优化 器 


optimizer = tf.train.AdamOptimizer(learning rate) 


+ PRRD 

gradients, v = zip(*optimizer.compute_gradients (loss) ) 
gradients, _ = tf.clip_by_global_norm (gradients, 5.0) 
optimizer = optimizer.apply gradients (zip (gradients, v)) 


在 定义 了 所 有 必要 的 TensorFlow 操作 之 后 ， 现 在 可 以 运行 预定 义 步 数 的 优化 过 程 ， 通 过 计算 
测试 数据 上 的 BLEU 分 数 以 及 多 个 测试 图 像 的 预测 进行 相关 处 理 。 详 细 的 过 程 可 以 在 代码 文件 中 
找到 。 


9.8 总 结 


wA 


从 图 像 生成 自然 语言 是 一 种 新 兴 的 深度 学 习 应 用 , 它 是 计算 机 视觉 和 自然 语言 处 理 的 交叉 领域 ， 
为 许多 实际 应 用 竟 定 了 技术 基础 。 由 于 深度 学 习 技术 的 出 现 , 近年 来 我 们 在 这 一 领域 取得 了 一 些 重 
大 进展 。 在 本 章 中 ， 我 们 首先 回顾 了 图 像 字幕 自动 生成 的 主要 发 展 及 其 对 研究 和 行业 部 署 的 影响 ; 
其 次 详细 介绍 了 基于 深度 学 习 的 图 像 字幕 自动 生成 的 两 大 框架 ;最 后 对 于 图 像 字幕 的 自动 生成 任务 
进行 了 详解 。 

关于 我 们 在 具体 沙 实 图 像 字幕 自动 生成 的 任务 中 提 到 的 学 习 模 型 是 一 个 复杂 的 深度 学 习 管 道 ， 
它 包括 以 下 内 容 : 

© RA CNN 推断 给 定 图 像 的 特征 向 量 。 

日 ”学 习 字幕 中 的 词 向 量 。 

日 ”使 用 图 像 特征 向 量 及 其 相应 的 字幕 训练 LSTM。 

在 案例 中 ， 我 们 详细 讨论 了 每 个 组 件 。 首先， 我 们 讨论 了 如 何在 大 型 分 类 数据 集 (ImageNet) 
上 使 用 预 训练 的 CNN 模型 来 抽取 良好 的 特征 向 量 ， 而 无 须 从 头 开始 训练 模型 。 为 此 ， 我 们 使 用 了 
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16 层 的 VGG 模型 。 然 后 ， 我 们 逐步 讨论 如 何 创建 TensorFlow 变量 ， 将 权重 值 加 载 到 其 中 并 创建 
神经 网 络 。 最 后 ， 我 们 通过 模型 运行 了 一 些 测试 图 像 ， 以 确保 模型 实际 上 能 够 识别 图 像 中 的 对 象 。 

其 次 ， 我 们 使 用 CBOW 算法 来 学 习 字幕 中 找到 的 单词 的 合理 词 向 量 。 需 要 强调 的 一 点 是 ， 我 
们 要 确保 将 词 向 量 的 维度 与 图 像 特 征 向 量 的 维度 相 匹配 ， 因 为 标准 LSTM 无 法 处 理 具 有 动态 维度 
的 输入 。 

接着 ， 我 们 使 用 简单 的 LSTM 神经 网 络 ， 输 入 序列 数据 ， 其 中 第 一 个 元 素 是 图 像 特 征 向 量 ， 
其 前 面 是 对 应 于 属于 该 图 像 字 幕 中 的 词 向 量 。 首 先 ， 我 们 通过 引入 两 个 标签 (SOS 和 EOS) KH 
处 理 图 像 字幕 ， 以 表示 每 个 字幕 的 开头 和 结尾 ， 然 后 截断 字幕 ， 以 便 所 有 字幕 具有 相同 的 长 度 。 
之 后 ， 我 们 讨论 了 几 个 不 同 的 指标 (BLEU, ROUGE, METEOR 和 CIDEr) ， 我 们 可 以 用 它 
们 来 定量 评估 生成 的 字幕 。 可 以 看 到 ， 当 我 们 通过 训练 数据 运行 算法 时 , 随 着 时 间 的 推移 , BLEU-4 
得 分 增加 了 。 此 外 , 我 们 以 可 视 化 方式 检验 了 生成 的 字幕 ， 并 看 到 机 器 学 习 管 道 在 图 像 字幕 自动 生 
成 上 逐渐 变 得 更 好 。 

最 后 , 我 们 讨论 了 如 何 使 用 预 训练 的 GloVe 词 向 量 和 TensorFlow RNN API 以 更 少 的 代码 和 更 
高 的 效率 执行 相同 的 任务 。 

展望 未 来 ， 虽 然 图 像 字幕 自动 生成 是 自然 语言 生成 (NLG) 在 自然 语言 处 理 (NLP) 中 的 特殊 
应 用 ， 但 它 也 是 图 像 -自然 语言 多 模 态 智能 领域 的 一 个 子 领域 。 近 年 来 ， 很 多 问题 已 经 被 提出 ， 包 
括 可 视 化 问答 (Agrawal 等 ，2015) 、 视 觉 故 事 讲述 CHuang 等 ，2016) 和 来 自 文本 描述 的 图 像 合 
成 (Zhang 等 ，2017) 。 而 涉及 自然 语言 的 多 模 态 智 能 的 进展 ， 实 际 上 是 未 来 建立 通用 人 工 智 能 能 
力 的 关键 。 

在 下 一 章 中 ， 我 们 将 学 习 情感 分 析 的 实现 。 


情感 分 析 


文本 情感 分 析 又 称 为 意见 挖掘 、 倾 向 性 分 析 等 ， 简 单 而 言 ， 是 对 带 有 情感 色彩 的 主观 性 文本 进 
行 分 析 、 处 理 、 归 纳 和 推理 的 过 程 。 互 联网 〈 如 博客 和 论坛 以 及 社会 服务 网 络 〈 如 大 众 点 评 ) ) 上 
产生 了 大 量 用 户 参 与 的 、 对 于 诸如 人 物 、 事 件 、 产 品 等 有 价值 的 评论 信息 。 这 些 评 论 信息 表达 了 人 
们 的 各 种 情感 色彩 和 情感 倾向 性 ， 如 喜 、 怒 、 京 、 乐 和 批评 、 赞 扬 等 。 基 于 此 ， 潜 在 的 用 户 就 可 以 
通过 浏览 这 些 主 观 色 彩 的 评论 来 了 解 大众 熏 论 对 于 某 一 事件 或 产品 的 看 法 。 

实际 上 ， 人 工 智能 中 的 情感 计算 不 是 现 阶段 才 提 出 来 的 ， 人 工 智能 之 父 明 斯 基 早 就 提 过 。 微软 
全 球 执行 副 总 裁 沈 向 洋 也 说 过 “我 们 的 智能 不 光 有 智商 ， 还 需要 有 情感 ”。 斯 坦 福 人 工 智能 实验 室 
主任 李 飞 飞 也 曾 说 过 “情绪 和 情感 是 人 工 智能 的 未 来 ”。 

4. 什么 是 情感 呢 ? 严格 意义 上 讲 , 情感 就 是 人 对 客观 事物 是 否 满足 自己 需要 而 产生 的 态度 
体验 。 机 器 对 于 情感 的 要 求 就 是 机 器 情感 计算 ， 也 就 是 机 器 理解 人 类 的 情感 和 生成 情感 的 能 力 。 所 
以 ， 赋 予 计算 机 情感 计算 能 力 的 研究 引起 了 学 术 界 和 企业 界 的 广泛 关注 。 

在 本 章 中 , 我 们 首先 介绍 一 些 情感 基础 认 知 方面 的 内 容 ， 比 如 情感 分 析 的 理解 及 其 应 用 、 情 感 
问题 的 界定 及 情感 文档 的 分 类 等 ; 其 次 ， 我 们 对 于 涉及 情感 分 析 的 具体 组 成 部 分 进行 详细 解读 ， 例 
如 句子 观点 的 主观 性 、 基 于 Aspect 的 情感 分 析 、 情感 词典 的 生成 、 垃 圾 评论 的 各 种 情况 等 ; 最 后 ， 
我 们 会 利用 TensorFlow 对 于 酒店 评论 样本 数据 进行 详细 解读 。 


10.1 认识 情感 分 析 


情感 分 析 (有 时 称 为 意见 挖掘 或 情感 人 工 智能 ) 是 指使 用 自然 语言 处 理 、 文 本 分 析 、 计 算 语言 
学 和 生物 统计 学 来 系统 地 识别 、 提取、 量化 和 研究 情感 状态 和 主观 信息 , 分 析 人 们 对 实体 (如 产品 、 
服务 、 组 织 、 个 人 、 问 题 、 事 件 、 主 题 及 其 属性 ) 的 意见 、 情 感 、 评 估 、 评 价 、 态 度 和 情绪 等 。 实 
际 上 , 它 代 表 了 一 个 很 大 的 问题 空间 , 相关 名 称 有 很 多 且 任 务 略 有 不 同 , 例如 情感 分 析 、 意见 挖掘 、 
意见 提取 、 情 感 挖掘 、 主 观 性 分 析 、 情 绪 分 析 、 评 论 挖 掘 等 。 尽 管 如 此 ， 这 些 如 今 都 属于 情感 分 析 
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或 意见 挖掘 的 范畴 。 在 工业 界 中 ,情感 分 析 这 个 术语 更 常用 , 在 学 术 界 ,情感 分 析 和 意见 挖掘 都 经 
常 被 使 用 ， 但 它们 基本 上 代表 了 相同 的 研究 领域 。“ 情 感 分 析 ” 一 词 可 能 首先 出 现在 Nasukawa 和 
Yi (2003) 的 论文 中 ， 而 意见 挖掘 这 一 术语 最 早出 现在 Dave 等 人 的 文章 中 (2003) 。 然 而 ， 对 情 
感 和 观点 的 研究 较 早 就 已 经 出 现 (Das 和 Chen, 2001; Morinaga 等 ，2002; Pang 等 , 2002; Tong, 
2001; Tumey, 2002; Wiebe, 2000) 。 情 感 分 析 和 意见 挖掘 主要 集中 在 表达 或 暗示 积极 或 消极 情 
绪 的 意见 上 。 

一 般 而 言 ， 情 感 分 析 旨 在 确定 说 话 者 、 作 家 或 其 他 主体 关于 某 个 主题 或 对 文档 、 交 谈 或 事件 的 
整体 语 境 的 情绪 反应 或 态度 。 态 度 可 以 是 判断 或 评价 〈 见 评价 理论 ) 、 情 感 状态 (作者 或 说 话 者 的 
情绪 状态 ) 或 预期 的 情感 交流 〈 也 就 是 说 ， 作 者 或 对 话 者 所 预期 的 情感 效果 ) 。 

在 本 章 中 ,我 们 可 能 交替 使 用 情感 分 析 和 意见 挖掘 这 两 个 术语 。 为 了 简化 ， 在 本 文中 ,我 们 将 
使 用 术语 “意见 ”来 表示 观点 、 情 感 、 评 价 、 态 度 和 情绪 。 但 是 ， 这 些 概 念 并 不 等 同 ， 将 在 需要 时 
对 它们 进行 区 分 。 

尽管 语言 学 和 自然 语言 处 理 NLP) 有 着 悠久 的 历史 ， 但 是 在 2000 年 之 前 ， 对 于 人 们 的 观点 
和 情感 方面 的 研究 却 很 少 。 从 2000 年 起 ， 该 领域 成 为 一 个 非常 活跃 的 研究 领域 。 这 有 几 个 原因 : 
首先 ， 它 的 应 用 范围 非常 广阔 ， 几 乎 在 每 一 个 领域 都 适用 。 由 于 商业 应 用 的 激增 ， 围 绕 情感 分 析 的 
产业 得 以 蓬勃 发 展 。 这 为 研究 提供 了 强大 的 动力 。 其 次 ， 它 提供 了 许多 具有 挑战 性 的 研究 问题 ， 这 
在 以 前 从 未 被 研究 过 。 本 章 将 系统 地 定义 和 讨论 这 些 问 题 , 并 描述 解决 这 些 问题 的 当前 最 先进 的 技 
术 。 再 次 ,我 们 在 人 类 历史 上 第 一 次 拥有 来 自 网 络 社交 媒体 上 巨 量 的 表达 人 们 个 人 观点 的 数据 样本 ， 
没有 这 些 数据 样本 , 很 多 研究 是 难以 开展 的 。 实际 上 , 情感 分 析 的 起 步 和 快速 增长 与 社交 媒体 的 步 
调 是 一 致 的 ， 情 感 分 析 已 处 在 社交 媒体 研究 的 中 心 位 置 。 因 此 ， 情 感 分 析 研 究 不 仅 对 NLP 有 重要 
影响 ， 而 且 可 能 对 管理 科学 、 政 治学 、 经 济 学 和 社会 科学 产生 深远 的 影响 ， 因 为 它们 都 受到 人 们 意 
见 的 影响 。 


情感 分 析 的 应 用 


意见 (或 观点 ) 几乎 是 人 类 所 有 活动 的 核心 ,因为 它 是 影响 我 们 行为 的 关键 因素 。 每 当 我 们 需 
要 做 出 决定 时 ， 就 想 参 考 一 下 别人 的 意见 。 在 现实 世界 中 ,企业 和 组 织 机 构 总 是 希望 找到 消费 者 或 
公众 对 其 产品 和 服务 的 意见 ， 个 人 消费 者 在 购买 产品 之 前 希望 了 解 现 有 用 户 的 意见 ， 等 等 。 过 去 ， 
当 一 个 人 需要 意见 时 ， 他 会 问 身边 的 朋友 和 家 人 。 当 一 个 组 织 或 企业 需要 公众 或 消费 者 的 意见 时 ， 
会 进行 细 分 调查 、 民 意 测 验 和 焦点 小 组 。 焦 点 小 组 ， 即 小 组 〈 焦 点 ) 座谈 (Focus Group) ， 是 由 
一 个 经 过 训练 的 主持 人 以 一 种 半 结 构 的 形式 与 一 个 小 组 的 被 调查 者 进行 交谈 , 主持 人 负责 组 织 讨论 。 
小 组 座谈 的 主要 目的 是 通过 倾听 一 组 从 调研 者 所 要 研究 的 目标 市 场 中 选择 来 的 被 调查 者 , 从 而 获取 
对 有 关 问 题 的 深入 了 解 。 这 种 方法 的 价值 在 于 常常 可 以 从 自由 进行 的 小 组 讨论 中 得 到 一 些 意 想 不 到 
的 发 现 。 对 于 营销 、 公 共 关系 和 智库 公司 来 说 ， 获 取 公 众 和 消费 者 的 意见 一 直 是 一 块 巨大 的 业务 。 

随 着 网 络 社交 媒体 (如 评论 、 论 坛 讨论 、 博 客 、 微 博 、Twitter 等 ) 的 爆炸 式 增长 ， 个 人 和 组 
织 越 来 越 多 地 使 用 这 些 媒体 中 的 内 容 进行 决策 。 如今 ,如 果 想 购买 菜 类 消费 产品 ， 人 们 不 再 局 限于 
向 朋友 和 家 人 征求 意见 ， 因 为 网 络 上 有 许多 关于 该 产品 的 用 户 评论 和 讨论 。 对 于 一 个 组 织 来 说 , 为 
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了 收集 公众 意见 ， 可 能 不 再 需要 进行 调查 、 民 意 测验 和 焦点 小 组 ， 因 为 网 络 媒体 上 有 大 量 这 样 的 公 
开 信息 可 用 。 然 而 ,由 于 各 种 网 站 的 泛滥 ,在 网 上 查找 和 监控 意见 并 提取 其 中 包含 的 信息 仍然 是 一 
项 艰巨 的 任务 。 每 个 站 点 通常 都 包含 大 量 的 意见 文本 , 在 长 篇 博客 和 论坛 帖子 中 并 不 总 是 很 容易 提 
取 这 些 意见 。 一 般 人 很 难 识别 相关 的 网 站 ， 并 提取 和 总 结 用 户 的 意见 。 因 此 ， 我 们 需要 自动 情感 分 
析 系 统 。 

近年 来 , 我 们 目睹 了 社交 媒体 尤其 是 自 媒体 影响 着 公众 的 情感 和 情绪 , 这 些 情绪 既 有 力 地 推动 
了 企业 自身 的 发 展 ， 又 对 我 们 的 社会 制度 完善 产生 了 深远 的 影响 。 由 于 这 些 社交 媒体 大 大 提高 了 大 
众 及 时 反映 社会 中 典型 问题 的 热情 ， 因 此 收集 和 研究 网 络 意见 已 经 变 得 非常 必要 。 当 然 ， 反 映 大 众 
情感 的 文档 不 仅 存在 于 Web 上 〔 称 为 外 部 数据 ) ， 许 多 组 织 也 有 其 内 部 数据 ， 例 如 从 电子 邮件 和 
呼叫 中 心 收集 的 客户 反馈 或 从 组 织 进 行 的 调查 中 得 到 的 结果 。 

由 于 这 些 社 交 媒 体 , 尤其 是 自 媒体 的 深入 应 用 影响 着 越 来 越 多 的 大 众 群 体 , 因此 近年 来 业界 关 
于 大 众 情感 分 析 方面 的 相关 研究 得 以 莲 勃 发 展 。 情 感 分 析 应 用 已 经 扩展 到 几乎 所 有 领域 , 从 消费 品 、 
服务 、 医 疗 保健 、 金 融 服 务 到 社交 活动 和 社会 制度 完善 等 。 许 多 大 公司 也 建立 了 自己 的 内 部 功能 ， 
例如 百度 、 阿 里 巴巴 、 小 米 、 微 软 、 谷 歌 、SAP 和 SAS 等 ， 这 些 实际 应 用 正 刺 激 着 情感 分 析 研 究 
的 深入 发 展 。 


10.2 情感 分 析 的 问题 


本 节 将 定义 情感 分 析 或 意见 挖掘 问题 的 抽象 概念 。 从 研究 的 角度 来 看 , 这 种 抽象 内 容 为 我 们 提 
供 了 问题 的 陈述 , 使 我 们 能 够 看 到 一 组 丰富 的 相互 关联 的 子 问题 ,这些 子 问题 构成 了 情感 分 析 问 题 。 
人 们 常 说 ， 如 果 不 能 将 问题 进行 结构 化 ， 我 们 就 不 可 能 真正 理解 这 个 问题 。 因 此 ， 定 义 的 目的 是 从 
复杂 和 令 人 生 明 的 非 结构 化 自然 语言 文本 中 抽象 出 一 种 结构 。 结 构 化 的 自然 语言 还 可 以 将 各 类 现 有 
研究 方向 的 框架 进行 统一 , 并 使 得 研究 人 员 能 够 通过 利用 子 问 题 的 相互 关系 来 设计 更 加 鲁 棒 和 更 加 
精确 的 技术 解决 方案 。 从 实际 应 用 的 角度 来 看 , 这 些 定义 让 从 业者 能 够 看 到 在 实际 系统 中 需要 解决 
哪些 子 问题 ， 它 们 是 如 何 关 联 的 ， 以 及 应 该 产生 什么 样 的 输出 。 

与 客观 事实 信息 不 同 , 意见 和 情感 具有 很 强 的 主观 性 特征 。 因此 ,重要 的 是 要 检查 来 自 许 多 人 
的 一 系列 意见 ， 而 不 是 仅仅 来 自 一 个 人 的 单一 意见 ， 因 为 这 种 意见 仅 代 表 这 个 人 的 单一 主观 观点 
通常 不 足以 产生 应 用 效果 。 由 于 网 络 媒体 上 已 经 聚集 了 大 量 意见 , 因此 我 们 可 以 得 到 某 种 形式 的 意 
见 摘要 (Hu 和 Liu，2004) ， 而 关于 问题 的 定义 将 会 说 明 需 要 哪 类 摘要 。 


问题 的 定义 


情感 分 析 主要 研究 表达 或 暗示 正面 或 负面 情绪 的 观点 。 因 此, 本 节 定义 了 此 背景 下 的 问题 情况 。 
我 们 使 用 以 下 关于 Apple iPhone 8 Plus 手机 的 评论 来 介绍 问题 (为 了 便于 参考 ， 每 个 句子 都 有 
一 个 id 编号) : 


发 布 者 : 张 小 明 日 期 : 2018 年 12 月 20 日 
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“D2 个 月 前 我 买 了 iPhone 8 手机 。@ 我 只 是 喜欢 它 。 @ 画 质 令 人 惊叹 。@ 电 池 寿 命 也 很 长 。 
回 然而 ， 我 的 妻子 认为 这 对 她 来 说 太 重 了 。?” 


从 这 篇 评论 中 ， 我 们 注意 到 一 些 重点 。 


(1) 关于 iPhone 8 手机 的 评论 有 很 多 正面 和 少量 负面 的 意见 。 句 子 @ 表 达 了 对 苹果 手机 整体 
的 积极 看 法 。 句 子 @ 对 其 显示 的 画面 表达 了 积极 的 看 法 。 句 子 @ 表 达 了 对 其 电池 寿命 的 积极 看 法 。 
句子 @ 表 达 了 对 手机 重量 的 负面 看 法 。 根 据 这 些 意见 ， 我 们 可 以 做 出 以 下 重要 观察 : 

观察 : 意见 包含 两 个 关键 组 成 部 分 : 目标 g 和 目标 上 的 情绪 s， 即 〈g，s) ， 其 中 g 可 以 是 表 
达意 见 的 实体 或 实体 的 任何 方面 (Aspect， 也 称 为 角度 ) ，s 是 正面 、 负 面 或 中 性 情绪 ， 或 表达 情 
绪 力 度 /强度 的 数字 评分 (例如 1-5 WME) 。 正 面 、 负 面 和 中 立 被 称 为 情绪 (或 意见 ) 取向 (或 极 
TE) 。 

例如 ， 句 子 @ 中 的 意见 目标 是 iPhone 8, 句子 @ 中 的 意见 目标 是 iPhone 8 的 画面 质量 。 在 情感 
分 析 文章 中 ， 目 标 也 被 称 为 主题 。 

(2) 该 评论 有 两 个 人 的 意见 , 被 称 为 意见 来 源 或 意见 持 有 人 (Kim 和 Hovy, 2004; Wiebe 等 ， 
2005) 。 句 子 @、 句 子 @@ 和 句子 图 中 的 意见 持 有 者 是 评论 的 作者 〈 张 小 明 ) ， 但 对 于 句子 @ 来 说 ， 
意见 持 有 者 是 作者 的 妻子 。 

G) 评论 日 期 是 2018 年 12 月 20 日 。 这 个 日 期 在 实践 中 很 重要 ， 因 为 人 们 经 常 想 知道 意见 是 
如 何 随时 间 和 意见 趋势 而 变化 的 。 


我 们 现在 将 意见 定义 为 4 部 分 。 

定义 (意见) : 意见 是 一 个 四 元 组 的 形式 ， 即 Cg s h, O ， 其 中 g 是 意见 〈 或 情感 ) 目标 ， 
s 是 关于 目标 的 情感 ，h 是 意见 持 有 者 , t 是 表达 意见 的 时 间 。 这 个 定义 虽然 非常 简洁 ,但 在 实践 中 
可 能 并 不 容易 使 用 ,特别 是 在 产品 、 服 务 和 品牌 的 在 线 评论 领域 , 因为 目标 的 完整 描述 可 能 很 复杂 ， 
甚至 可 能 不 会 出 现在 同一 个 句子 中 。 例 如 , 在 句子 @ 中 , 意见 目标 实际 上 是 “iPhone 8 的 图 像 质量 ”， 
但 是 句子 仅 提 到 “图 像 质量 ”。 在 这 种 情况 下 ， 意 见 目标 不 仅仅 是 “图 像 质 量 ”， 因 为 我 们 不 知道 
这 句 话 正在 评估 iPhone 8 手机 的 画面 质量 ， 单 单 句子 @ 中 的 意见 几乎 没 用 。 在 实践 中 ， 目 标 通常 
可 以 以 多 层次 的 结构 化 方式 进行 分 解 和 描述 , 这 极 大 地 有 助 于 我 们 挖掘 意见 和 随后 使 用 挖掘 的 意见 
结果 。 例如， "iPhone 8 的 图 像 质量 ”可 以 分 解 为 实体 和 实体 的 属性 ， 并 表示 为 一 对 : GPhone 8， 
图 像 质量 ) 。 

我 们 这 里 使 用 术语 实体 (Entity) 来 表示 已 经 评估 的 目标 对 象 。 实 体 的 定义 如 下 CHu 和 Liu, 
2004; Liu, 2006 和 2011) 。 

ik (Entity) : 是 产品 、 服 务 、 主 题 、 问 题 、 个 人 、 组 织 或 事件 。 它 用 一 对 e: (CT, WO 来 
描述 ， 其 中 T 是 实体 中 的 部 分 、 子 部 分 等 的 层次 结构 ，W 是 e 的 一 组 属性 。 每 个 部 分 或 子 部 分 也 
有 自己 的 一 组 属性 。 

示例 1: 特定 型 号 的 手机 是 一 个 实体 ， 例 如 iPhone 8。 它 具有 一 组 属性 ， 例 如 图 像 质量 、 尺 寸 


和 重量 ， 以 及 一 组 部 件 ， 例 如 镜头 、 存 储 卡 和 电池 。 电 池 还 具有 其 自身 的 一 组 属性 ， 例 如 电池 寿命 
和 电池 重量 。 一 个 主题 也 可 以 是 一 个 实体 ， 例 如 ，2018 年 常见 的 词 “ 降 低 税 费 ”， 其 中 包括 “ 降 
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低 个 人 所 得 税 ”“ 降 低 民 营 企业 税 费 ” 和 “降低 外 资 企业 税 费 ”。 

这 个 定义 本 质 上 描述 了 基于 部 分 关系 的 实体 的 层次 分 解 。 根 节点 是 实体 的 名 称 , 例如 上 面 评论 
中 的 iPhone 8。 所 有 其 他 节点 都 是 部 分 和 子 部 分 等 ， 可 以 在 节点 的 任何 子 节点 和 任何 属性 上 表达 意 
见 。 


示例 2: 在 上 面 的 示例 评论 中 ， 句 子 OO 表达 了 对 整个 iPhone 8 手机 实体 的 正面 看 法 。 句 子 
G) 表达 了 对 手机 画面 质量 属性 的 积极 看 法 。 显 然 ， 人 们 还 可 以 表达 关于 手机 的 部 件 或 组 件 的 意 
见 。 


此 实体 作为 任意 数量 级 别 的 层次 结构 都 需要 嵌 套 关系 来 表示 , 这 对 于 具体 应 用 来 说 通常 过 于 复 
杂 。 主 要 原因 是 ， 由 于 自然 语言 处 理 (NLP) 是 一 项 非常 困难 的 任务 ， 因 此 在 不 同 级 别 的 细节 中 识 
别 实体 的 部 分 和 属性 非常 困难 。 大 多 数 应 用 不 需要 这 样 复杂 的 分 析 。 因此 , 我 们 将 层次 结构 简化 为 
两 个 级 别 ， 并 使 用 术语 “方面 ” (Aspect) 来 表示 部 分 和 属性 。 在 简化 的 树 中 ， 根 节点 仍然 是 实体 
本 身 ， 但 是 第 二 级 〈 第 二 层 ， 也 是 叶子 级 ) 节点 是 实体 的 不 同方 面 (Aspect) 。 这 种 简化 的 框架 是 
实际 情感 分 析 系 统 中 通常 使 用 的 。 


需要 说 明 的 一 点 是 ， 在 研究 文献 中 ， 实 体 (Entity) 也 称 为 对 象 (Object) ， 而 方面 (Aspect) 
也 称 为 特征 (Feature， 如 产品 特征 )。 但 是 ， 此 处 的 特征 不 应 该 与 机 器 学 习 中 使 用 的 特征 混淆 ， 机 
器 学 习 中 的 特征 表示 的 是 数据 属性 。 为 了 避免 混淆 ， 近 年 来 “方面 ” 变 得 越 来 越 流 行 。 另 外 ， 一 些 
研究 人 员 还 使 用 术语 Facet (部 分 或 方面 ) 、Attribute 特征 或 属性 ) . Topic (主题 ， 并 上 且 在 特 
定 的 应 用 中 ， 实 体 和 方面 也 可 能 基于 应 用 领域 的 约定 被 称 为 其 他 名 称 。 


在 分 解 意见 (Opinion) 目标 后 ， 我 们 可 以 重新 定义 意见 (Hu 和 Liu 的 文章 《Mining and 
Summarizing Customer Reviews) , 2004; Liu Hi3 (Natural Language Processing》 中 的 Sentiment 
Analysis and Subjectivity, 2010) . 


定义 意见 : 意见 是 五 元 组 的 形式 ， 即 Cei, Qij» Sis hg» ti) ， 其 中 ei 是 实体 的 名 称 ， aij 是 ei 
的 一 个 方面 (Aspect) ，sijx: 是 实体 ei 的 方面 aij 上 的 情感 ， 和 是 意见 持 有 者 ， 妃 是 大 表达 意见 的 时 
间 。 情感 sijky 是 正面 的 、 负 面 的 或 中 性 的 , 或 者 用 不 同 的 等 级 /强度 水 平 表示 ,例如 ， 大 多 数 评 论 网 
站 上 使 用 1~5 星 等 级 划分 。 当 一 个 意见 相对 于 实体 本 身 而 作为 一 个 整体 时 ， 使 用 特殊 “方面 ”的 
GENERAL 来 表示 。 这 里 ，ei 和 ai 一 起 代表 意见 的 目标 。 


关于 这 个 定义 ， 我 们 继续 给 出 一 些 相关 的 解释 。 


© ”在 这 个 定义 中 ， 我 们 特意 使 用 下 标 来 强调 五 元 组 中 的 5 条 信息 必须 是 相互 对 应 的 。 也 就 
是 说 ， 意 见 sijk1 必 须 由 意见 持 有 者 hx 给 出 关于 在 时 间 t 上 实体 ei 的 方面 aij。 任何 不 匹配 都 
是 错误 的 。 

@ 这 5 个 组 成 部 分 至 关 重 要 ， 缺 少 任何 一 个 都 是 有 问题 的 。 例 如 ， 如 果 没 有 时 间 成 分 ， 我 
们 就 不 能 根据 时 间 来 分 析 对 一 个 实体 的 意见 ， 这 在 实践 中 往往 非常 重要 ， 因 为 两 年 前 的 
意见 和 昨天 的 意见 的 参考 价值 显然 是 不 一 样 的 。 没 有 意见 持 有 人 也 是 有 问题 的 。 例 如 ， 
在 “这 件 事情 以 后 ， 村 长 被 村 里 老百姓 爱戴 ， 但 他 却 受到 乡里 领导 的 批评 ”这 向 话 中 ， 
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两 个 意见 持 有 者 “村 里 老百姓 ”和 “乡里 领导 ”显然 对 于 “村 长 ”的 意见 是 相反 的 。 

该 定义 涵盖 了 一 个 意见 语义 的 大 部 分 内 容 ， 但 不 是 所 有 可 能 的 方面 ( Aspect ) ， 它 可 能 是 
任意 复杂 的 。 例 如 ， 它 没有 覆盖 “手机 背面 的 镜头 太 是 出 ”的 情况 ， 这 表达 了 对 镜头 与 
机 身 不 协调 的 看 法 。 它 也 没有 涵盖 所 表达 的 意见 的 背景 ， 例 如 ，“ 这 辆 车 对 于 一 个 高 个 
子 来 说 太 小 了 ”， 并 不 是 说 这 辆 车 对 每 个 人 来 说 都 太 小 了 。 “高 个 子 ” 是 这 里 所 表达 的 
意见 的 背景 。 还 要 注意 ， 在 最 初 的 实体 定义 中 ， 它 是 部 分 、 子 部 分 等 的 层次 结构 。 每 个 
部 分 都 可 以 拥有 一 组 属性 。 由 于 简化 ， 五 元 组 表示 可 能 导致 信息 丢失 。 例 如 ，“ 墨 盒 ” 
是 打印 机 的 一 部 分 (或 一 个 部 件 ) 。 在 打印 机 评论 中 ， 有 人 写 道 “这 台 打 印 机 的 墨盒 价 
格 昂贵 ”。 这 并 不 是 说 打印 机 价格 昂贵 (这 表明 是 “方面 ”的 价格 意见 ) 。 如 果 一 个 人 
不 关心 墨盒 的 任何 属性 ， 这 和 多 话 只 是 给 墨盒 一 个 负面 的 意见 ， 却 变 成 了 有 关 打 印 机 实体 
的 一 个 “方面 ”的 意见 。 然 而 ， 如 果 还 想 研究 关于 墨盒 的 不 同 “ 方 面 ”的 意见 ， 例 如 价 
格 和 质量 ， 就 需要 将 墨盒 视 为 单独 的 实体 。 然 后 ， 五 元 组 表示 仍然 适用 ， 但 需要 保存 部 
分 关系 。 当 然 ， 从 概念 上 讲 ， 我 们 可 以 使 用 谈 套 关系 来 扩展 意见 目标 的 表示 。 尽 管 存在 
这 些 限 制 ， 但 对 于 大 多 数 应 用 来 说 ， 该 定义 仍然 涵盖 了 足够 多 的 有 关 意 见 的 基本 信息 。 
正如 我 们 前 面 提 到 的 ， 过 于 复杂 的 定义 会 使 这 个 问题 变 得 极 难 解 决 。 

这 个 定义 提供 了 一 个 框架 ， 用 于 将 非 结构 化 文本 转换 为 结构 化 数据 。 上 面 的 五 元 组 基本 
上 是 一 个 数据 库 模 式 ， 根 据 该 模式 可 以 将 提取 的 视图 放 入 数据 库 表 中 。 然 后 ， 可 以 使 用 
整套 数据 库 管理 系统 (DBMS ) 和 OLAP 工具 来 执行 丰富 的 定性 、 定 量 和 趋势 分 析 。 

这 里 定义 的 意见 只 是 一 种 意见 ， 称 为 常规 意见 (Regular Opinion) 。 另 一 种 是 比较 意见 
( Comparative Opinion, Jindal 和 Liu, 2006; Liu. 2006 和 2011) ， 需 要 不 同 的 定义 。 


10.3 ”情感 文档 分 类 


从 本 节 开 始 , 我 们 将 讨论 当前 主要 的 研究 方向 或 主题 及 其 核心 技术 。 情感 分 类 可 能 是 研究 最 广 
泛 的 话题 (Pang 和 Lee, 2008) 。 它 旨 在 将 意见 文档 分 类 为 表达 积极 或 消极 的 意见 或 情感 。 该 任务 
通常 也 称 为 文档 级 情感 分 类 , 因为 它 将 整个 文档 视 为 基本 信息 单元 。 关于 该 主题 的 绝 大 多 数 研究 都 
是 针对 在 线 评论 进行 分 类 。 因 此 , 我 们 还 在 评论 上 下 文中 定义 了 问题 ， 但 该 定义 也 适用 于 其 他 类 似 
HERY. 

问题 的 定义 : 对 于 给 定 评估 实体 的 意见 文档 d， 需 要 确定 意见 持 有 者 关于 实体 的 整体 情感 s， 


即 确定 在 


E 五 元 组 中 方面 (Aspect) 的 GENERAL 上 表达 的 s, Hl ( , GENERAL, s, 0, X 


中 实体 e、 意 见 持 有 人 h 和 意见 时 间 t 假 定 已 知 或 不 相关 。 根 据 s 所 采用 的 数值 (Value) 类 型 ， 这 
里 有 两 种 表述 。 如 果 s 采用 分 类 值 ， 例 如 正 数 和 负数 ， 它 就 是 分 类 问题 ; 如 果 s 采用 给 定 范围 内 的 
数值 或 序数 数值 ， 例 如 1-5， 问 题 就 变 为 回归 。 
为 了 确保 相关 任务 在 实践 中 更 具有 意义 ， 有 研究 人 员 做 了 以 下 隐 含 假设 (Liu, 2010) 。 
情感 分 类 或 回归 的 假设 是 : 意见 文档 4〈 例 如 产品 评论 ) 表达 了 对 单个 实体 e 的 意见 并 且 包 含 
来 自 单个 意见 持 有 者 的 意见 。 在 实践 中 ,如 果 一 个 意见 文档 评估 了 不 止 一 个 实体 ,那么 实体 上 所 
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表达 的 情绪 可 以 是 不 同 的 。 例 如 ,意见 持 有 人 可 能 对 某 些 实体 持 肯 定 态 度 , 对 其 他 实体 持 否 定 态度 。 
因此 , 在 这 种 情况 下 , 将 一 个 情感 取向 分 配给 整个 文档 是 没有 实际 意义 的 。 多 个 意见 持 有 者 在 单个 
文档 中 表达 意见 也 没有 多 大 意义 ， 因 为 他 们 的 意见 也 可 能 不 同 。 

此 假设 适用 于 产品 和 服务 的 评论 , 因为 每 个 评论 通常 侧重 于 评估 单个 产品 或 服务 , 并 且 由 单个 
评论 者 所 写 。 然 而 ， 该 假设 可 能 不 适用 于 论坛 和 博客 贴 文 ， 因为 在 这 样 的 贴 文中 ,作者 可 以 表达 对 
多 个 实体 的 意见 并 使 用 比较 句子 来 比较 它们 。 


10.4 和 句子 主观 性 与 情感 分 类 


文档 级 情感 分 类 对 于 大 多 数 应 用 来 说 可 能 是 过 于 粗糙 的 。 我 们 现在 转 到 句子 级 别 , 即 对 每 个 句 
子 中 所 表达 的 情感 进行 分 类 。 但 是 , 文档 和 句子 级 别 的 分 类 之 间 没 有 根本 性 的 区 别 ， 因 为 句子 其 实 
只 是 一 个 简短 的 文档 。 研究 人 员 经 常 对 句子 级 分 析 做 出 的 一 个 假设 是 , 句子 通常 包含 单一 意见 。 文 
档 通 常 包含 多 个 意见 。 下 面 以 示例 评论 进行 讨论 。 

“两 周 前 我 买 了 一 部 摩托 罗拉 手机 。 最 初 一 切 都 很 好 ， 声 音 很 清晰 ， 电 池 寿 命 很 长 ， 只 是 它 有 
点 笨重 。 但 是 ， 它 昨天 停止 了 工作 。” 

第 一 句 话 没有 表达 任何 意见 , 因为 它 只 是 陈述 了 一 个 事实 。 而 所 有 其 他 句子 则 表达 了 明示 或 瞳 
示 的 情感 。 注 意 一 点 ， 通 常 认为 没有 意见 是 中 立 的 。 

问题 定义 : 给 定 句子 x， 确 定 x 是 表示 正面 、 负 面 或 中 立 (或 没有 ) 意见 。 

这 里 不 使 用 五 元 组 (e，a，s，h，t) 定义 ， 因 为 句子 级 别 分 类 是 一 个 中 间 步 又 。 在 大 多 数 应 
用 中 ， 需 要 了 解 意见 目标 。 只 知道 一 个 句子 表达 了 积极 或 消极 的 意见 ， 而 不 是 意见 所 涉及 的 实体 / 
方面 CEntity/AspecO ， 其 用 途 是 有 限 的。 然而 ， 句 子 级 别 分 类 仍然 有 用 ， 因 为 在 许多 情况 下 ， 如 
果 我 们 知道 在 一 个 句子 中 谈论 了 哪些 实体 和 实体 的 方面 , 这 一 步骤 可 以 帮助 我 们 确定 关于 实体 及 其 
方面 的 意见 是 积极 的 还 是 消极 的 。 

句子 情感 分 类 既 可 以 作为 三 类 分 类 问题 来 解决 , 也 可 以 作为 两 个 独立 的 分 类 问题 来 解决 。 在 后 
一 种 情况 下 ， 第 一 个 问题 (也 称 为 第 一 步 ) 是 对 句子 是 否 表达 意见 进行 分 类 。 第 二 个 问题 (也 称 为 
第 二 步 ) 将 这 些 意 见 句子 归 类 为 正面 和 负面 类 型 。 第 一 个 问题 通常 称 为 主观 性 分 类 ， 它 确定 一 个 句 
子 是 表达 主观 信息 还 是 事实 (客观 ) 信息 (Hatzivassiloglou 和 Wiebe, 2000; Riloff 等 ,2006; Riloff 
和 Wiebe，2003; Wiebe 等 ，2004; Wilson 等 ，2004 和 2006; Yu 和 Hatzivassiloglou，2003) 。 客 
观 句 子 被 视 为 不 表达 任何 情感 或 意见 。 这 是 我 们 前 面 讨论 过 的 问题 ,客观 句子 也 可 以 暗示 意见 , 例 
如 ， 在 上 述评 论 中 , “但 是 ， 它 昨天 停止 了 工作 ”是 一 个 客观 的 句子 ， 但 它 暗示 了 对 手机 的 负面 情 
绪 ， 因 为 这 是 不 受 欢迎 的 事实 。 因 此 ， 第 一 步 更 适合 将 每 个 句子 分 类 为 评论 者 是 否 有 自己 的 意见 ， 
无 论 是 主观 的 还 是 客观 的 。 
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10.5 ”基于 方面 (Aspect) 的 情感 分 析 


本 节 关 注 基 于 方面 (Aspect) 的 词组 和 词 级 别 情感 分 类 。 其 实 ， 在 文件 或 句子 层面 对 意见 文本 
进行 分 类 通常 不 能 满足 我 们 的 实际 应 用 , 因为 它们 没有 识别 意见 目标 或 为 这 些 目 标 指定 情绪 。 即 使 
我 们 假设 每 个 文档 评估 的 是 单个 实体 , 关于 实体 正面 意见 的 文档 并 不 意味 着 作者 对 实体 的 所 有 方面 

(Aspect) 都 是 积极 的 意见 。 同 样 ， 负 面 意见 的 文档 并 不 意味 着 作者 对 一 切 都 持 消极 意见 。 为 了 进 
行 更 加 完善 的 分 析 ， 我 们 需要 发 现实 体 的 各 个 方面 Aspect) 并 确定 每 个 方面 的 情感 是 积极 的 还 是 
消极 的 。 

为 了 提取 这 些 细节 ， 我 们 进入 方面 (Aspect) 层级 ， 在 Hu 和 Liu (2004) 的 文章 中 ， 这 也 被 
称 为 基于 特征 的 观点 挖掘 (意见 挖掘 的 另外 一 种 说 法 ) 。 请 注意 ， 如 10.2 节 所 述 ， 意 见 目标 被 分 
解 为 实体 及 其 方面 (Aspect) 。 方 面 (Aspect) 上 的 GENERAL 用 于 在 结果 中 表示 实体 本 身 。 因此， 
基于 方面 (Aspect) 的 情感 分 析 涵 盖 实 体 和 方面 (Aspect) 。 它 还 引入 了 一 系列 问题 ， 这 些 问 题 需 
要 更 深 次 的 自然 语言 处 理 (NLP) 功能 ， 并 可 以 产生 更 丰富 的 结果 。 
可 想 一 下 ， 在 方面 (Aspect) 层面 ， 目 标 是 发 现 给 定 文档 d 中 的 每 个 五 元 组 Cei dijs Sije 
hys t) 。 为 实现 这 一 目标 ， 必 须 执 行 6 项 任务 。 本 节 主 要 给 出 下 面 列 出 的 两 个 核心 任务 ， 研 究 人 
员 也 对 它们 进行 了 广泛 的 研究 。 

提取 方面 CAspecO : 此 任务 是 提取 已 评估 的 方面 (Aspect) 。 例 如 ， 在 句子 中 ，“ 这 款 手 机 
的 语音 质量 令 人 惊叹 ”， 方 面 (Aspect) 是 “这 款 手机 ”所 代表 的 实体 的 “语音 质量 ”。 请 注意 ， 
“这 款 手机 ”并 不 表示 此 处 的 方面 CAspec 的 GENERAL， 因 为 评估 不 是 关于 整个 手机 ， 而 是 关 
于 它 的 语音 质量 。 然 而 ， 句 子 “ 我 喜欢 这 款 手 机 ” 则 是 评估 整个 手机 ， 即 “这 款 手 机 ”所 代表 的 实 
体 的 方面 (Aspect) 的 GENERAL。 记 住 ， 每 当 我 们 谈论 一 个 方面 (Aspect) 时 ， 我 们 必须 知道 它 
属于 哪个 实体 。 在 后 面 的 讨论 中 ， 我 们 经 常 省 略 实体 ， 只 是 为 了 简化 说 明 。 

方面 CAspecO 情感 分 类 : 此 任务 决定 了 不 同方 面 (Aspect) 的 意见 是 积极 的 、 消 极 的 还 是 中 
立 的 。 在 上 面 的 第 一 个 例子 中 ， 对 “语音 质量 ”方面 (Aspect) 的 看 法 是 积极 的 。 在 第 二 部 分 ， 关 
于 方面 (Aspect) 的 GENERAL 的 意见 也 是 积极 的 。 

请 注意 ， 在 应 用 中 可 能 会 给 出 意见 目标 ， 因 为 用 户 只 对 这 些 特 定 目标 〈 例 如 ，BMW 和 Ford 
品牌 ) 感 兴趣 。 在 这 种 情况 下 ， 我 们 不 需要 执行 实体 或 方面 (Aspect) 的 提取 ， 而 只 需 确定 目标 上 
的 情感 即 可 。 


10.6 情感 词典 生成 


显然 ， 如 果 文 本 传递 出 积极 或 消极 情绪 的 词汇 和 短语 ， 将 会 有 助 于 我 们 开展 情感 分 析 工 作 。 本 
节 简要 介绍 如 何 编译 这 样 的 词 列 表 。 在 研究 文献 中 ， 情 感 词 也 称 为 意见 词 、 极 性 词 或 意见 承载 词 。 
正面 情绪 词 用 于 表达 一 些 期 望 的 状态 或 品质 ， 而 负面 情绪 词 则 用 于 表达 一 些 不 期 望 的 状态 或 品质 。 
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积极 情绪 词 如 “美丽 的 ”、“ 精 彩 的 ”和 “惊人 的 ”等 。 负 面 情绪 词 如 “ 坏 的 ”、“ 可 怕 的 ”和 “ 差 
的 等。 除了 单个 词 之 外 , 还 存在 情感 短语 和 习 语 。 总 的 来 说 , 它们 被 称 为 情感 词典 (或 意见 词典 ) 。 
为 了 便于 说 明 ， 从 现在 开始 ， 当 我 们 说 出 情感 词 时 ， 我 们 指 的 是 单个 词 和 短语 。 

清 感 词 可 分 为 两 种 类 型 : 基本 类 型 和 比较 类 型 。 上 面 的 所 有 示例 词 都 是 基本 类 型 。 比 较 类 型 的 
情感 词 (包括 最 高 级 类 型 ) 用 于 表达 比较 和 最 高 级 的 观点 ， 如 “更 好 的 “更 差 的 “最 好 的 ”“ 最 
差 的 ”等 ,它们 是 形容 词 或 副词 的 比较 和 最 高 级 形式 。 与 基本 类 型 的 情感 词 不 同 ， 比 较 类 型 的 情感 
词 不 表达 对 实体 的 常规 意见 ， 而 是 对 多 个 实体 的 比较 意见 , 例如“ 百事可乐 比 可 口 可 乐 更 好 喝 ” 这 
句 话 没有 表达 这 两 种 饮料 中 的 任何 一 种 是 好 的 或 差 的 观点 。 它 只 是 说 与 可 口 可 乐 相 比 ， 百 事 可 乐 味 
道 更 好 。 

研究 人 员 还 提出 了 许多 编制 情感 词 的 方法 。 三 种 主要 的 方法 是 : 手工 方法 、 基 于 字典 的 方法 和 
基于 语料库 的 方法 。 手 工 方法 是 劳动 密集 型 且 耗 时 的 ， 因 此 通常 不 单独 使 用 ， 而 是 与 自动 化 方法 结 
合 在 一 起 作为 最 终 的 检查 使 用 ， 因 为 自动 化 方法 有 时 会 出 错 。 


10.7 意见 摘要 


在 大 多 数 情感 分 析 应 用 中 ， 人们 需要 研究 许多 人 的 意见 ， 由 于 意见 的 主观 性 , 仅 查 看 单个 人 的 
意见 通常 是 不 够 的 ， 需 要 某 种 形式 的 摘要 。 在 102 节 中 ， 我 们 知道 意见 五 元 组 提供 了 意见 摘要 的 
基本 信息 ， 这 样 的 摘要 被 称 为 基于 方面 (Aspect) 的 摘要 (或 基于 特征 的 摘要 ) ， 这 在 Hu 和 Liu 
(2004) 和 Liu 等 (2005) 的 论文 中 被 提出 ， 且 大 部 分 意见 摘要 研究 都 采用 了 这 种 类 型 的 思想 。 该 
框架 在 业界 得 到 了 广泛 的 应 用 ， 例 如 ，Microsoft Bing 和 Google Product Search 的 情感 分 析 系 统 就 
使 用 了 这 种 形式 的 摘要 。 输 出 摘要 可 以 是 结构 化 形式 ， 也 可 以 是 非 结构 化 形式 。 

一 般 来 说 ,意见 摘要 可 以 被 看 作 多 文档 文本 摘要 的 一 种 形式 。 文 本 摘要 在 NLP (DAS, 2007) 
中 得 到 了 广泛 的 研究 。 但 是 ， 意见 摘要 与 传统 的 单一 文档 或 多 文档 摘要 (事实 信息 ) 大 不 相同 ， 因 
为 意见 摘要 通常 以 实体 、 方 面 (Aspect) 和 关于 它们 的 情感 为 中 心 ， 并 且 具 有 定量 的 一 面 ， 这 是 基 
于 方面 (Aspect) 的 观点 的 本 质 所 在 。 传 统 的 单 文档 摘要 通过 从 长 文本 中 提取 一 些 “ 重 要 ”句子 以 
生成 短文 本 ,而 传统 的 多 文档 摘要 发 现 了 文档 之 间 的 差异 后 就 丢弃 了 重复 的 信息 。 它 们 既 没有 明确 
也 捕捉 到 文档 中 讨论 的 不 同 主题 /实体 及 其 方面 (Aspect) ， 也 没有 定量 的 一 面 。 传 统 文本 摘要 中 
句子 的 “重要 性 ”通常 是 基于 每 个 系统 中 使 用 的 摘要 算法 和 度量 的 定义 。 另 一 方面 ， 意 见 摘要 可 以 
在 概念 上 定义 。 因 此 ,摘要 是 有 条 理 的 ， 即 使 对 于 短文 本 文档 的 输出 摘要 ， 其 中 仍然 会 存在 一 些 明 
确 的 结构 形式 。 


10.8 比较 观点 分 析 


除了 直接 表达 对 实体 及 其 方面 (Aspect) 的 正面 或 负面 的 意见 外 ， 还 可 以 通过 比较 类 似 实体 来 
表达 意见 。 这 种 观点 被 称 为 比较 意见 (Jindal 和 Liu，2006a，2006b) 。 比 较 意见 与 常规 意见 有 关 ， 
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但 也 有 所 不 同 。 它 们 不 仅 具 有 不 同 的 语义 ， 而 且 具 有 不 同 的 句法 形式 。 例如，“ 这 款 手机 的 语音 质 
量 惊 人 ”是 一 个 典型 的 常规 意见 句子 ， 而 “诺基亚 手机 的 语音 质量 优 于 iPhone 手机 ”是 典型 的 比 
较 意见 句子 。 这 个 比较 句子 并 没有 说 明 任何 手机 的 语音 质量 好 坏 ， 只 是 比较 它们 。 由 于 这 种 差异 ， 
比较 意见 需要 不 同 的 分 析 技 术 。 和 普通 句子 一 样 , 比较 句子 也 可 以 有 自己 的 见解 或 没有 自己 的 见解 。 
上 面 的 比较 句子 之 所 以 有 自己 的 见解 ， 是 因为 它 明确 地 表达 了 作者 的 比较 情绪 ， 而 “iPhone 手机 
比 普通 诺基亚 手机 宽 1 英寸 ” 则 没有 表达 出 自己 的 见解 。 


10.9 意见 搜索 


由 于 Web 搜索 已 被 证 明 是 Web 上 的 一 项 有 价值 的 服务 ， 因 此 不 难 想象 ， 意 见 搜索 也 会 有 很 大 
用 处 。 两 种 典型 的 意见 搜索 是 : 


e ”查找 有 关 特 定 实体 或 实体 的 方面 (Aspect ) 的 公众 意见 。 例 如 ， 查 找 客户 对 手机 质量 的 看 
法 ， 并 查找 有 关 社 会 热点 问题 的 公众 意见 。 

€ ”查找 个 人 或 组 织 (意见 持 有 者 ) 对 某 个 特定 实体 (或 主题 ) 或 实体 某 个 方面 (Aspect ) 的 
意见 。 例 如 ， 查 找 巴 拉克 奥巴马 关于 堕胎 的 意见 。 这 种 类 型 的 搜索 尤其 与 新 闻 文章 相 
关联 ， 在 新 闻 文 章 中 ， 表 达意 见 的 个 人 或 组 织 将 被 明确 地 列 出 。 


对 于 第 一 类 查找 , 用户 可 以 简单 地 给 出 实体 的 名 称 或 带 有 实体 名 称 的 某 方面 (Aspect) 的 名 称 。 
对 于 第 二 类 查找 ， 用 户 可 以 给 出 意见 持 有 者 的 姓名 和 实体 〈 或 主题 ) 的 名 称 。 


10.10 垃圾 评论 检测 
10.10.1 垃圾 评论 概述 


随 着 社交 媒体 的 快速 发 展 ,来 自 网 络 上 的 评论 意见 越 来 越 多 地 影响 着 组 织 或 个 人 进行 购买 决策 
的 制定 、 投 票 和 市 场 产 品 设计 等 事宜 。 对 于 公司 和 个 人 而 言 ， 正面 的 评论 意见 常常 意味 着 更 高 的 利 
润 和 更 好 的 口碑 。 有 研究 表明 : 在 Yelp.com 网 站 上 , 如 果 增 加 半 颗 星 评分 ,就 能 帮 餐 馆 提 升 约 19% 
的 销量 (Anderson 和 Magruder, 2012) , 平均 评分 若 增 长 一 颗 星 , 将 带 来 5%~9% 的 利润 增长 (Luca， 
2011)。 由 于 商人 对 于 利润 和 市 场 规模 的 追逐 ,网 络 媒体 上 出 现 了 越 来 越 多 的 虚假 评论 或 虚假 意见 。 
通过 发 布 这 种 虚假 的 意见 或 评论 来 达到 推销 或 旗 毁 一 些 目标 产品 、 服 务 、 组 织 或 个 人 的 目的 。 这 样 
的 个 人 或 组 织 称 为 垃圾 评论 发 布 者 (Opinion Spammer) , 他 们 的 活动 被 称 为 垃圾 评论 发 布 (Opinion 
Spamming) 。 

目前 ,垃圾 评论 已 经 十 分 普遍 。 例 如 ， 有 调查 研究 表明 ， 在 Yelp.com 网 站 上 有 接近 25% 的 评 
论 是 欺骗 性 的 评论 (http://www.bbc.com/news/technology-24299742) 。 相 比 于 商业 评论 ， 针 对 社交 
和 政治 事件 发 布 垃 圾 评论 的 活动 具有 更 大 的 危害 性 , 它们 可 能 会 利用 牌 曲 的 意见 或 观点 来 将 民众 调 
动 到 法 律 和 道德 的 对 立 面 上 。 因 此 ,为 了 使 得 社交 媒体 继续 作为 公开 意见 或 观点 的 可 信 来 源 ， 而 不 
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是 充斥 着 越 来 越 多 的 欺骗 .谎言 与 伪造 观点 或 意见 , 垃圾 评论 检测 有 着 极其 重要 的 意义 和 研究 价值 。 

个 人 和 组 织 越 来 越 多 地 使 用 社交 媒体 的 意见 来 做 出 购买 决定 ， 并 在 营销 、 产 品 设计 、 产 品 或 服 
务 投诉 等 方面 做 出 自己 的 选择 。 积极 的 意见 通常 意味 着 企业 和 个 人 的 利益 和 名 誉 得 以 维系 , 而 不 幸 
的 是 ， 通 过 发 布 虚假 的 意见 或 评论 来 促进 或 旗 毁 某 些 目标 产品 、 服 务 、 组 织 、 个 人 ， 实 际 上 就 刺激 
了 大 家 围观 和 加 入 其 中 的 冲动 。 这 些 人 被 称 为 垃圾 评论 发 送 者 , 他 们 的 活动 被 称 为 垃圾 评论 (Jindal 
和 Liu, 2007, 20080 。 关 于 社会 和 政治 与 论 的 垃圾 评论 甚至 可 能 令 人 恐惧 ， 因 为 它们 可 以 焉 曲 意 
见 并 煽动 群众 反对 法 律 或 道德 规范 。 可 以 肯定 地 说 , 随 着 社交 媒体 中 的 意见 越 来 越 多 地 被 用 于 实践 ， 
垃圾 评论 将 变 得 越 来 越 猩 镍 和 复杂 ， 这 样 一 来 ， 对 于 它们 的 检测 将 面临 更 大 的 挑战 。 但 是 ， 它 们 必 
须 被 检测 ， 以 确保 社交 媒体 继续 成 为 公众 与 论 的 可 靠 来 源 ， 而 不 是 充满 虚假 的 观点 、 虚 假 的 意见 
谎言 和 欺骗 。 

研究 人 员 已 经 在 许多 领域 进行 了 垃圾 评论 检测 的 研究 工作 ， 而 研究 最 多 的 两 类 是 Web 垃圾 网 
页 信息 和 垃圾 邮件 。 然 而 ， 垃 圾 评论 却 大 不 相同 。 有 两 种 主要 类 型 的 Web 垃圾 ， 即 垃圾 链接 和 垃 
圾 内 容 (Castillo 和 Davison, 2010; Liu, 2006 812011) 。 垃 圾 链接 是 超 链接 上 的 垃圾 信息 ， 在 评 
论 中 几乎 不 存在 。 虽然 广 告 链接 在 其 他 形式 的 社交 媒体 中 很 常见 ,但 它们 相对 容易 被 发 现 。 垃圾 内 
会 在 目标 网 页 中 添加 流行 (但 不 相关 ) 的 关键 词 ， 以 欺骗 搜索 引擎 使 其 与 许多 搜索 查询 相关 ， 但 
是 这 种 情况 很 少 出 现在 评论 文章 中 .而 垃圾 邮件 是 指 未 经 请 求 的 广告 ,这 在 在 线 网 络 意见 中 很 少见 

垃圾 评论 检测 的 主要 挑战 是 , 与 其 他 形式 的 垃圾 评论 不 同 , 通过 人 工 阅 读 来 识别 虚假 意见 m 
常 困难 的 ， 这 很 难 找 到 垃圾 评论 数据 来 帮助 设计 和 评估 检测 算法 。 对 于 其 他 形式 的 垃圾 评论 ， 人 们 
可 以 相当 容易 地 识别 它们 。 

事实 上 , 在 极端 情况 下 ,仅仅 通过 阅读 垃圾 评论 在 逻辑 上 是 不 可 能 识别 的 。 例如， 人 们 可 以 为 
一 家 好 和 餐馆 写 一 份 真实 的 评论 ,然后 将 其 发 布 为 对 坏 餐 馆 的 虚假 评论 ， 以 便 推 广 它 。 如 果 不 考虑 评 
论文 本 本 身 之 外 的 信息 , 就 无 法 检测 到 这 种 虚假 评论 , 因为 不 能 同时 为 同一 评论 给 出 真实 和 虚假 的 
两 个 标签 。 


10.10.2 垃圾 评论 的 类 型 


Jindal fil Liu (2008) 经 过 分 析 指 出 ， 商 业 网 站 上 目前 主要 有 以 下 三 种 类 型 的 垃圾 评论 。 


e 类 型 1 (虚假 评论 ) : 这 些 评论 都 是 评论 者 对 真实 产品 或 服务 没有 实际 使 用 经 历 和 体验 
的 非 真实 评论 。 其 中 蕴含 着 一 些 隐藏 的 动机 。 通 常情 况 下 ， 他 们 会 针对 目标 实体 (产品 
或 服务 ) 发 表 不 应 得 的 正面 评价 ， 以 促销 实体 (产品 或 服务 ) ; 或 用 不 公正 的 虚假 负面 
评论 来 旗 毁 目标 实体 的 声誉 。 

e 类 型 2 ( 仅 关 于 品牌 的 评论 ) : 这 些 评论 没有 如 期 望 地 评论 具体 的 产品 或 服务 ， 而 是 对 
品牌 或 产品 的 制造 商 发 表 评 论 。 虽 然 评 论 可 能 是 真实 的 ， 但 因为 它们 没有 针对 具体 的 产 
品 ， 而 且 往往 是 有 偏见 的 ， 因 而 被 视 为 垃圾 评论 。 例 如 ， 一 个 关于 特定 型 号 的 HP 打印 机 
评论 说 : “我 讨 奈 HP， 我 从 来 不 买 他们 的 任何 产品 ”。 

e 类 型 3 ( 非 评论 文本 ) : 这 类 垃圾 评论 往往 都 不 是 评论 ， 其 包含 两 种 类 型 : (1) 广告 ; 
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(2) 不 含 观点 的 〔 例 如 问题 、 答 案 和 随机 文本 ) 不 相关 文本 。 严 格 地 说 ， 它 们 不 被 当 作 
评论 ， 因 为 它们 没有 提供 用 户 对 于 产品 和 服务 的 意见 和 评论 。 
目前 , 类 型 2 和 类 型 3 的 垃圾 评论 比较 罕见 , 而 且 很 容易 用 基于 监督 学 习 的 统计 模型 或 者 给 定 
模板 加 以 检测 〈Jindal 和 Liu, 2008) 。 即 使 没有 检测 到 它们 ， 也 不 是 大 问题 ， 因 为 读者 在 阅读 过 
程 中 很 容易 发 现 它们 。 因 此 , 现 有 的 大 量 研究 工作 主要 关注 类 型 1 的 垃圾 评论 检测 研究 ， 即 虚假 评 
论 检测 。 


10.10.3 ”可 观察 到 的 信息 


垃圾 评论 活动 本 身 具 有 很 高 的 隐蔽 性 ， 垃 圾 评论 者 在 评论 网 站 上 留 下 的 搜索 浏览 记录 、 卫 XE 
移 变更 速率 、 客 户 端 登 录 等 信息 对 于 检测 垃圾 评论 十 分 有 效 , 但 这 些 信息 对 于 评论 网 站 本 身 是 极为 
保密 且 有 价值 的 信息 。 虽 然 dianping.com、yelp.com 等 网 站 开发 了 高 效 的 垃圾 评论 过 滤 算 法 ， 但 其 
算法 细节 与 所 用 数据 信息 都 是 保密 的 。 相 比 之 下 ,对 于 学 术 界 而 言 ， 所 能 获取 的 数据 信息 就 比较 有 
限 了 , 主要 就 是 普通 用 户 在 网 站 页 面 上 浏览 到 的 信息 。 但 学 术 界 做 出 了 大 量 的 研究 贡献 并 得 出 了 很 
多 有 价值 的 结论 。 图 10-1 展示 了 学 术 界 目前 所 能 利用 的 数据 信息 〈 以 yelp.com 数据 为 例 ) 。 


- Ed ODDOD 2: 
7 New York, NY 


$$ 20 friends © 1checrin 
O 6reviews 

o, I'm usually a little stand-offish about ordering food at deli's. | don't 
know what it is about being open 24hr/day but usually the food is not that 
good. I've been going to this deli for a while now. It's been very 
convenient for me when | need my emergency stuff at emergency hours 
in the night. The guys working there are really nice and always in a good 
mood.. so, I tried a sandwich and to my surprise... not bad. Nothing to 
complain about but it was better then | expected. One note: Excellent 


Was this review ...? 


Greenhearts Family Farm 
DODOOD = =e 


$$ - CSA Farms 


图 10-1 可 观察 到 的 信息 


如 图 10-1 所 示 ， 对 于 产品 的 评论 页 面 而 言 ， 其 中 包含 元 数据 和 文本 数据 。 元 数据 : 主要 指 的 
有 户 发 表 评 论 的 基本 信息 ， 包 括 用 户 名 、 用 户 所 在 城市 、 用 户 朋 友 数 目 、 用 户 发 表 过 的 评论 数 、 
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该 条 评论 的 评分 、 发 布 日 期 、 所 获得 的 有 帮助 的 反馈 数 等 时 间 、 地 理 、 社 交 维 度 方面 的 数据 ， 以 及 
包括 对 于 被 评价 实体 (产品 、 宾馆 或 餐厅 ) 页 面 所 包含 的 元 数据 中 有 实体 的 平均 分 数 、 实体 所 在 地 、 
实体 所 获得 评论 的 数量 等 元 数据 ; 文本 数据 : 这 条 评论 的 文本 内 容 ; 行为 数据 : 在 整个 评价 系统 中 ， 


F 


户 、 评 论 、 被 评价 实体 三 者 构成 了 一 种 网 络 图 结构 。 在 这 个 图 中 ， 涵 盖 了 用 户 评价 的 行为 踪迹 ， 


这 种 用 户 的 行为 踪迹 被 视 为 是 关于 用 户 评论 的 行为 数据 。 而 元 数据 、 文 本 数据 、 行 为 数据 都 是 可 以 


被 


来 挖掘 有 效 特征 的 数据 信息 。 


10.10.4 数据 样本 


在 日 常生 活 中 ,我 们 经 常 听 到 一 句 话 : 巧 妇 难 为 无 米 之 炊 。 由 于 垃圾 评论 活动 本 身 的 隐蔽 性 和 


难 标注 性 , 一 个 合理 的 数据 集 对 于 研究 工作 会 起 到 很 大 的 支撑 作用 。 下 面 我 们 罗列 出 一 些 研究 人 员 
实验 过 的 数据 集 。 


€ Amazon 数据 集 : 垃圾 评论 检测 的 问题 是 由 Jindal 和 Liu 于 2008 年 第 一 次 提出 的 。 他 们 


收集 了 来 自 Amazon.com 的 数 百 万 条 评论 数据 ,假设 垃圾 评论 发 布 者 为 节省 精力 而 重复 利 
用 已 有 评论 ， 进 而 将 重复 性 的 评论 当 作 垃圾 评论 数据 。 但 由 于 缺乏 标注 的 数据 集 ， 该 工 
作 只 是 简单 地 将 重复 性 的 评论 当 作 垃圾 评论 数据 来 训练 模型 ， 因 而 会 错过 分 析 很 多 非 重 
复 性 的 伪装 性 很 高 的 垃圾 评论 。 

Resellerratings 数据 集 : Wang 等 人 2011 年 第 一 次 提出 了 应 用 图 模式 (Graph Model ) 来 解 
决 垃圾 评论 检测 问题 ， 也 是 第 一 次 关于 店铺 评论 检测 的 研究 工作 。 该 数据 集 来 自 于 网 站 
www.resellerratings.com 上 的 店铺 评论 数据 ， 采 用 人 工 方式 标注 数据 。Mukherjee 等 人 于 
2012 年 同样 利用 了 www.resellerratings.com 上 的 数据 , 并 进行 了 垃圾 评论 用 户 组 的 研究 工 
^£. 

Tripadvisor 数据 集 : 由 于 缺乏 人 工 标 注 的 数据 集 ，Ott 等 人 于 2011 年 借助 于 Amazon 
Mechanical Turk, 运用 众 包 的 方法 ， 即 在 AMT 网 站 上 发 布 有 偿 任 务 ， 雇 佣 他 人 撰写 关于 
宾馆 或 餐馆 的 伪造 评论 ， 提 出 了 第 一 个 垃圾 评论 检测 的 Gold-Standard 数据 集 。 对 于 非 垃 
圾 评论 数据 的 收集 ，Ott 等 人 认为 ， 具 有 大 量 评论 且 平 均 分 较 高 的 宾馆 或 餐馆 ， 对 于 采用 
负面 评论 旗 毁 而 拉 低 评分 的 垃圾 评论 的 攻击 活动 已 无 攻击 价值 ， 因 为 基于 大 量 评 论 的 平 
均 评 分 很 难 被 少量 负面 评价 拉 低 . 于 是 Ott 等 人 于 2011 年 在 Tripadvisor 网 站 上 收集 了 这 
样 的 若干 五 分 评论 作为 非 垃圾 评论 。Ott 等 人 于 2013 年 通过 添加 伪造 的 负面 评论 对 其 
2011 年 的 数据 集 进行 了 扩充 。JiweiLi 等 人 于 2014 年 将 Ott 等 人 2011 年 收集 的 数据 集 扩 
展 到 了 多 个 领域 ， 并 加 入 了 来 自 专 家 的 伪造 评论 进行 了 实验 。 但 是 ， 该 数据 集 采 用 众 包 
的 方式 收集 到 的 垃圾 评论 并 非 来 自 于 专业 垃圾 评论 者 ， 缺 乏 商业 上 的 真实 性 与 实战 性 。 
Mukherjee 等 人 于 2013 年 运用 Ott 等 人 2011 年 收集 得 到 的 训练 好 的 模型 在 来 自 Yelpb.com 
上 的 真实 商业 性 的 数据 集 上 进行 测试 ， 得 到 了 68% 的 准确 率 ， 并 统计 观察 发 现 Ott 等 人 
2011 年 收集 的 数据 集中 真 伪 评论 的 词 分 布 的 差异 性 相 比 真实 商业 性 数据 要 大 很 多 。 
Mukherjee 等 人 在 文中 表明 , 来 自 Amazon Mechanical Turk 的 评论 撰写 者 并 不 一 定 是 商业 
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网 站 中 专业 的 或 有 经 验 的 垃圾 评论 发 布 者 ， 且 受到 的 经 济 利益 驱动 也 不 大 (AMT 上 发 布 
的 任务 报酬 及 收集 评论 数 都 很 少 ) ， 因 而 他 们 写 的 评论 更 容易 从 文本 角度 被 检测 出 来 ， 
同时 没有 保留 用 户 的 行为 信息 ,也 为 Ott 等 人 2011 年 的 模型 应 用 于 真实 任务 造成 了 困难 。 

€ Yelp 数据 集 : 这 是 第 一 个 兼 具 商 业 性 与 参考 标准 (Ground Truth， 标 注 好 的 真实 数据 ) 的 
数据 集 。Mukherjee (2013b ) 是 第 一 个 分 析 由 商业 网 站 过 滤 后 的 Real-Life Fake 评论 工作 
的 人 。Yelp.com 是 一 个 商业 性 的 评论 收集 网 站 ， 从 2005 年 开始 致力 于 可 疑 或 伪造 评论 的 
过 滤 工 作 ， 其 算法 成 熟 、 准 确 率 高 ， 获 得 了 业界 研究 的 认可 ( Weise，2011 ) 。 然 而 由 于 
商业 的 保密 性 ，Yelp.com 并 没有 公布 其 算法 细节 ， 但 公布 了 其 对 评论 过 滤 的 结果 。Weise 
在 Ott 等 人 2011 年 收集 的 数据 集 上 使 用 了 监督 学 习 方法 训练 好 的 模型 (只 利用 评论 的 文 
本 特征 ) ， 在 来 自 Yelp.com 的 真实 商业 性 的 数据 集 上 进行 了 测试 ， 得 到 的 准确 率 远 低 于 
Ott 等 人 2011 年 的 90% 的 准确 率 。 在 Yelp.com 数据 集 上 ，Weise 综合 利用 文本 特征 和 用 
户 行为 特征 来 检测 垃圾 评论 ， 获 得 了 较 好 的 实验 效果 。Mukherjee 等 人 (2013c) 也 做 了 
类 似 的 工作 ， 发 现在 Yelp.com 网 站 上 ， 为 了 避免 在 评论 中 重复 使 用 特殊 词汇 ， 垃 圾 评论 
发 布 者 都 试 着 以 相似 频率 使 用 在 真实 评论 中 出 现 的 词汇 。 但 同时 ， 垃 圾 评论 发 布 者 为 使 
其 评论 更 可 人 和信， 过 度 伪造 了 评论 。 基 于 Yelp.com 过 滤 算 法 的 业界 认可 度 和 多 年 开发 的 成 
熟 性 ， 该 数据 集 是 目前 在 商业 真实 性 与 参考 标准 ( Ground Truth ) 之 间 做 出 了 较 好 平衡 的 
一 个 数据 集 。 


10.10.5 垃圾 评论 检测 方法 


截至 到 目前 为 止 ,研究 人 员 已 经 提供 了 一 些 方法 能 够 把 垃圾 评论 检测 问题 看 成 一 个 分 类 任务 ， 
其 研究 的 核心 问题 是 如 何 从 评论 网 站 上 可 观测 的 信息 中 抽取 出 有 效 的 特征 , 然后 输入 分 类 器 中 , 并 
构建 有 效 的 垃圾 评论 检测 器 。 

根据 可 观测 的 信息 类 型 以 及 特征 表示 方法 , 现 有 的 方法 可 以 分 为 三 种 : 第 一 种 是 基于 文本 内 容 
的 垃圾 评论 检测 方法 ; 第 二 种 是 基于 用 户 行为 的 垃圾 评论 检测 方法 ; 第 三 种 是 基于 表示 学 习 的 垃圾 
评论 检测 方法 。 

1. 基于 文本 内 容 的 垃圾 评论 检测 方法 

顾名思义 ， 基 于 文本 内 容 的 垃圾 评论 检测 方法 就 是 仅 从 文本 内 容 中 抽取 指示 垃圾 评论 的 特征 。 
其 中 ，Ott 等 人 (2011) 将 心理 语言 学 线索 特征 应 用 到 了 垃圾 评论 检测 上 。Harris (2012) 探索 了 
写作 风格 方面 的 特征 。Feng A (2012a) 调研 了 文体 学 方面 的 文本 特征 。Li 等 人 (2013) 将 主 
体 模型 应 用 到 了 垃圾 评论 检测 中 。Li 等 人 (2014b) 又 进一步 研究 了 垃圾 评论 与 正常 评论 之 间 语 言 
使 用 上 的 差异 性 。Li 等 人 (2014a) 基于 Unigram (一 元 模型 ， 单 个 词 ) 与 Bigram (二 元 模型 ， 双 
词 ) 特征 进行 了 垃圾 评论 检测 中 单 类 学 习 的 相关 研究 。Kim A (2015) 提出 了 基于 框架 特征 的 
深度 语义 分 析 。 

2. 基于 用 户 行为 的 垃圾 评论 检测 方法 

Lim 等 人 (20100 研究 了 垃圾 评论 者 打分 行为 方面 的 特征 。Jindal 等 人 (2010) 分 析 了 评论 
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系统 中 可 疑 性 非 正常 的 评论 模式 。Feng 等 人 (2012b) 分 析 了 垃圾 评论 者 的 评论 行为 分 布 性 。Xie 等 
人 (2012) 研究 了 不 活跃 用 户 时 间 维度 上 的 非 正常 行为 模式 。Mukherjee A (2012) 研究 了 群 组 
性 垃圾 评论 者 的 行为 特征 。Mukherjee 等 人 〈2013a) 提出 了 一 种 原则 性 方法 来 对 评论 者 的 垃圾 攻 
击 性 进行 建 模 。Fei EA (2013) 分 析 了 垃圾 评论 者 在 评论 爆炸 中 的 共 现 性 行为 。Mukherjee 等 人 
(2013c) 证 明了 在 垃圾 评论 检测 中 ， 评 论 者 的 行为 特征 比 文本 特征 更 有 效 。Liet 等 人 (2015) 与 
KC 和 Mukherjee (2016) 分 析 了 垃圾 评论 活动 中 的 时 间 和 空间 动态 特征 。 

Wang 等 人 (2011) 利用 线 上 商铺 评论 分 析 了 评论 系统 中 的 网 络 图 特征 ， 并 应 用 图 模型 
CGraphModel) 来 解决 垃圾 评论 检测 问题 。 作 者 提出 了 三 个 度量 指标 : 店铺 的 可 信和 度 、 评 论 用 户 
的 可 信任 程度 、 评 论 的 诚实 度 。 在 此 基础 上 考虑 了 店铺 、 评 论 发 布 者 、 评 论 之 间 的 三 角 关 系 ， 友 代 
计算 三 个 指标 来 对 三 者 分 别 计算 排序 ， 而 不 是 简单 地 考虑 单个 评论 者 的 行为 特征 。Akoglu 等 人 
(2013) 在 图 特征 方面 做 了 类 似 的 研究 工作 ,其 跳出 了 以 往 了 要 么 依赖 于 用 户 文本 特征 , 要 么 依赖 
于 用 户 行为 特征 来 检测 垃圾 评论 的 思路 ， 直 接 关 注 于 评论 者 与 产品 之 间作 用 的 网 络 图 方面 的 特征 ， 
提出 了 一 种 更 为 有 效 的 方法 : FRAUDEAGLE。 图 10-2 CWang 等 ，2011) 展示 了 评论 系统 中 基本 
的 图 结构 ， 从 该 图 结构 中 ， 我 们 可 以 利用 图 算法 (HITS、PageRank、RandomWalk 等 ) 挖掘 分 析 
当前 评论 是 否 为 一 个 虚假 评论 ， 当 前 评论 者 是 否 为 一 个 垃圾 评论 者 。 
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图 10-2 ”挖掘 用 户 行为 的 图 结构 (Wang ^f, 2011) 


在 此 基础 上 ，Mukherjee 等 人 (2013b) 将 文本 特征 和 行为 特征 结合 起 来 检测 垃圾 评论 ， 并 利 
用 Yelp.com 数据 集 证 明了 在 垃圾 评论 检测 任务 中 ， 特 别 是 在 真实 的 商业 性 数据 集 上 ， 行 为 特征 比 
文本 特征 更 有 效 。Rayana 和 Akoglu (2015) 在 Akoglu 等 人 (2013) 研究 的 基础 上 ， 第 一 次 综合 
利用 了 从 评论 文本 、 评 论 者 行为 、 评 论 系统 图 结构 中 挖掘 出 的 线索 特征 来 检测 垃圾 评论 ， 也 得 到 了 
相同 的 结论 。 总体 来 说 , 行为 特征 比 文 本 特征 更 有 效 , 联合 利用 文本 特征 、 行 为 特征 与 图 特征 是 目 
前 最 为 有 效 的 方法 。 
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3. 基于 表示 学 习 的 垃圾 评论 检测 方法 

虽然 我 们 在 检测 垃圾 评论 方面 取得 了 很 大 的 进步 , 但 Wang 等 人 于 2016 年 发 现 其 中 依然 存在 
几 点 不 足 : 第 一 ， 研 究 人 员 依据 人 工 做 出 的 假设 及 专家 知识 来 提取 特征 或 对 图 结构 进行 分 析 ， 不 仅 
费时 费力 , 可靠 性 也 有 限 。 同 时 专家 知识 或 经 验 知 识 是 有 限 的 ,在 提取 特征 之 前 , 研究 人 员 做 了 大 
量 的 依据 专家 知识 的 统计 。 例 如 ，Li 等 人 〈2015) 根据 大 众 点 评 的 数据 ， 统 计 分 析 得 到 了 这 样 的 
先 验 知识 : “垃圾 评论 行为 是 一 种 地 理 外 包 式 的 活动 "“ 一 个 用 户 的 注册 地 就 是 他 平时 所 生活 的 地 
方 ”， 所 以 真实 用 户 更 倾向 于 评论 注册 地 附近 的 餐馆 ， 而 垃圾 用 户 的 餐馆 领域 的 评论 不 受 地 理 条 件 
约束 。 当 我 们 对 Yelp 数据 集 统计 时 ， 发 现 了 相悖 的 结论 ， 在 餐馆 领域 ， 垃 圾 评论 中 72% 来 自 于 餐 
馆 附 近 的 地 方 ， 而 真实 评论 中 有 64% 来 自 于 餐馆 附近 的 地 方 ， 反 而 低 于 垃圾 评论 中 的 比例 。 可 见 
专家 知识 结论 的 可 靠 性 并 不 高 .同时 , 专家 知识 或 先 验 知识 也 是 有 限制 的 , 很 难 发 现 大 量 可 疑 线索 。 
第 二 ,依赖 于 专家 知识 或 先 验 知识 的 方法 ,在 选取 特征 时 只 是 人 为 地 利用 了 系统 中 的 部 分 信息 。 例 
如 , 传统 的 行为 特征 都 是 围绕 着 一 个 评论 者 个 体 进行 统计 的 , 未 能 考虑 评论 者 在 系统 中 与 产品 及 其 
他 评论 者 的 交互 信息 , 基于 图 结构 提取 信息 表达 评论 的 方法 虽然 考虑 了 评论 者 、 产 品 之 间 的 交互 信 
息 ,但 是 只 考虑 了 同一 产品 评价 页 面 下 的 评论 者 之 间 的 交互 信息 ,没有 突破 评论 页 面 的 限制 .所 以 ， 
可 以 认为 ， 在 不 同 产品 间 ， 全 局 地 /比较 地 收集 评论 者 与 评论 者 、 评 论 者 与 产品 、 产 品 与 产品 间 的 
信息 具有 很 强 的 辅助 作用 。 因 此 ， 针 对 上 述 已 有 方法 的 不 足 ， 目 前 研究 的 关键 问题 主要 集中 于 : 我 
们 是 否 能 够 直接 从 数据 的 层面 , 而 不 依赖 于 专家 经 验 , 自动 学 习 得 到 用 户 的 行为 表示 以 及 所 评价 的 
商品 表示 ? 

为 了 解决 以 上 提出 的 过 去 工作 中 的 不 足 ，Wang 等 人 于 2016 年 提出 了 一 种 基于 表示 学 习 的 垃 
圾 评论 检测 方法 。 模 型 如 图 10-3 所 示 ， 该 方法 不 依赖 于 专家 知识 或 者 说 极 大 地 减轻 了 对 于 专家 
知识 的 依赖 性 和 受 影响 性 ) ， 利 用 多 重 关系 全 局 信息 进行 联合 学 习 ， 同 时 考虑 了 用 户 和 产品 信息 ， 
并 且 用 隐 含 的 方式 表示 评论 ， 具 有 很 好 的 鲁 棒 性 。 具 体 做 法 如 下 : 


Review 


| p“ D 外 
[^ 
X, Pr Factorize x R, x Concatenate [ dj Classifier 
sj 
a B, 
Pr A , AT 


A m^ Review Representation 
I- Relations 9: p 


图 10-3 基于 张 量 分 解 的 用 户 和 产品 表示 学 习 
€ ”为 了 尽 可 能 地 摆脱 对 于 专家 知识 的 依赖 , 并 尽 可 能 全 局 性 收集 信息 、 捕捉 用 户 行为 特征 ， 
Wang 等 人 于 2016 年 在 未 做 出 任何 垃圾 嫌疑 倾向 性 假设 的 前 提 下 ,定义 了 两 类 基础 关系 : 
“两 个 实体 (评论 者 或 产品 ) 的 直接 关联 关系 (一 阶 关系 ) ”与 “两 个 实体 的 属性 间 关 
A (二 阶 关系 ) ”。 在 此 基础 上 ， 他 们 分 别 从 时 间 、 空 间 、 社 交 等 维度 记录 了 两 个 实体 
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之 间 的 关联 信息 ， 共 衍生 出 11 种 具体 的 关系 (如 图 10-4 所 示 ) ， 并 用 一 个 张 量 记录 了 这 
11 种 关系 下 用 户 之 间 、 产 品 之 间 以 及 用 户 和 产品 之 间 的 关联 。 该 方法 突破 了 传统 的 评论 
者 必须 有 评论 交集 的 限制 或 者 页 面 内 部 的 局 部 限制 ,在 每 个 关系 中 ,将 任意 两 两 实体 ( 评 
论 者 和 评论 者 、 评 论 者 和 产品 、 产 品 和 产品 ) 进行 比较 ， 在 全 局 范围 内 衡量 一 个 评论 者 
或 产品 在 当前 关系 中 的 分 布 特点 。 


@ “为 进一步 联合 运用 多 重 关 系 信 息 ， 并 用 隐 含 的 方式 表示 评论 (评论 者 表示 + 产品 表示 ) ， 


Wang 等 人 于 2016 年 采用 了 基于 上 面 提 到 的 11 种 关系 ( 非常 基础 且 不 易 被 垃圾 评论 者 改 
变 的 关系 ) 的 张 量 分 解 方法 (RESCAL ) ， 在 多 重 关 系 之 间 应 用 全 局 性 的 损失 函数 来 更 充 
分 地 联合 学 习 评论 者 与 产品 各 自 的 信息 表示 。 正如 Nickel 等 人 2011 年 在 文章 中 所 述 的 那 
样 ， 在 全 局 性 损失 函数 的 学 习 中 ，“ 所 有 直接 或 间接 的 关系 对 于 实体 的 表达 都 有 影响 ”， 
也 就 是 说 ， 最 后 联合 学 习 到 的 实体 隐 含 表示 融合 了 全 局 的 关系 信息 。 这 些 隐 含 表 示 不 能 
被 垃圾 评论 者 所 理解 ， 有 助 于 提升 检测 系统 的 和 鲁 棒 性 。 


e 为 了 能 够 区 分 来 自 同一 用 户 的 不 同 产品 评论 ， 我 们 将 学 习 到 的 评论 者 与 产品 的 表示 拼接 


起 来 ， 作 为 评论 者 发 给 该 产品 的 评论 的 信息 表示 。 以 此 得 到 融合 全 局 性 信息 的 、 隐 含 式 
的 、 有 产品 区 分 度 的 评论 表示 。 最 后 ， 我 们 将 评论 的 表示 输入 分 类 器 中 ， 完 成 垃圾 评论 
的 检测 工作 。 


用 户 是 否 评价 了 某 产品 

用 户 给 某 产 品 的 评分 

用 户 A 与 用 户 B 是 否 共同 评价 了 某 产品 

用 户 A 与 用 户 B 共 同 评价 某 产品 的 时 间 差 
用 户 A 与 用 户 B 共 同 评价 某 产品 的 评分 差 
用 户 A 与 用 户 B 注 册 的 时 间 差 

用 户 A/ 产 品 M 与 用 户 B/ 产 品 N 的 平均 分 差 
用 户 A 与 用 户 B 的 朋友 数目 差 

用 户 A/ 产 品 M 与 用 户 B/ 产 品 N 所 在 地 是 否 相同 
产品 M 与 产品 N 拥 有 的 共同 评论 者 数量 
11 — 产品 M 与 产品 N 拥 有 的 评论 数量 差 


0 0€X40€2^50U0 N^ 


5 


图 10-4 ”基于 张 量 分 解 的 用 户 和 产品 表示 学 习 关系 列表 


10.11 评论 的 质量 


在 这 一 节 中 ,我 们 将 讨论 评论 的 质量 问题 。 这 个 话题 与 垃圾 评论 检测 有 关 ， 但 有 所 不 同 ， 因 为 
低 质 量 的 评论 可 能 不 是 垃圾 评论 或 虚假 评论 , 而 虚假 评论 可 能 不 会 被 读者 视 为 低 质量 的 评论 , 正如 


RNA 


E 10.10 节 中 所 讨论 的 那样 ， 通 过 阅读 评论 很 难 发 现 假 评 论 。 出 于 这 个 原因 ， 如 果 冒 名 项 蔡 者 


早期 撰写 评论 并 精心 制作 ， 假 评论 就 可 能 被 视 为 有 用 或 高 质量 的 评论 。 
这 项 任务 的 目的 是 确定 每 个 评论 的 质量 、 帮 助 性 、 有 用 性 或 实用 性 (Ghose 和 Ipeirotis, 2007; 
Kim ^$, 2006; Liu 等 ，2007; Zhang 和 Varadarajan. 2006) 。 这 是 一 项 有 意义 的 任务 ， 因 为 在 向 
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用 户 展示 评论 时 ， 最 好 先 根据 质量 或 有 用 性 对 评论 进行 排名 ， 并 优先 展示 最 有 用 的 评论 。 事 实 上 ， 
许多 评论 聚合 或 托管 网 站 多 年 来 一 直 在 实践 这 一 点 。 他 们 通过 让 读者 为 每 个 评论 提供 有 益 的 反馈 来 
获得 每 个 评论 的 帮助 性 或 质量 分 数 。 例 如 ， 在 amazon.com 上 ， 读 者 可 以 通过 回答 每 个 评论 下 方 的 
问题 “评论 对 您 有 帮助 吗 ? ”来 表明 当前 评论 是 否 对 自己 有 帮助 。 然 后 在 每 次 审核 之 前 汇总 并 显示 
所 有 响应 的 反馈 结果 ， 例 如 “16 个 人 中 的 15 个 发 现 以 下 评论 有 用 ”。 尽 管 大 多 数 评论 托管 站 点 已 
经 提供 服务 , 但 是 自动 确定 每 个 评论 的 质量 仍然 是 有 很 用 的 , 因为 大 量 的 用 户 反馈 可 能 需要 很 长 时 
间 才 能 积累 。 这 就 是 为 什么 许多 评论 很 少 或 没有 反馈 ， 对 于 新 评论 尤其 如 此 。 

下 面 我 们 将 评论 质量 作为 一 个 回归 问题 来 重点 讨论 一 下 , 当然 还 有 其 他 的 方法 来 衡量 评论 的 质 
量 问题 ， 这 里 就 不 一 一 罗列 了 。 

评论 的 质量 通常 被 表述 为 一 个 回归 问题 。 学 习 的 模型 为 每 个 评论 分 配 一 个 质量 分 数 , 该 分 数 可 
用 于 评论 排名 或 评论 推荐 。 在 这 方面 的 研究 中 , 用 于 训练 和 测试 的 基础 事实 数据 通常 是 用 户 对 每 个 
评论 有 帮助 性 的 反馈 。 因 此 , 与 虚假 评论 检测 不 同 ， 这 里 的 训练 和 测试 数据 都 不 是 问题 。 研 究 人 员 
在 模型 构建 中 使 用 了 许多 类 型 的 特性 。 

Kim 45A. (2006) 利用 支持 向 量 机 回归 方法 解决 了 这 一 问题 ， 其 相关 特征 包括 : 

结构 特征 : 评论 长 度 、 句 子 数量 、 问 题 句子 和 感叹 号 的 百分比 以 及 HTML 粗 体 标签 <b> 和 换行 
符 的 数量 <br>。 

词汇 特征 : 具有 tf-idf 权重 值 的 Unigram 〈 单 个 词 的 模型 或 一 元 模型 ) 和 Bigram 〈 双 词 的 模型 
或 二 元 模型 ) 。 

句法 特征 : 开放 类 《名 词 、 动 词 、 形 容 词 和 副词 ) 的 已 解析 标记 百分比 、 名 词 占 标记 百分比 、 
动词 占 标记 百分比 、 第 一 人 称 共 思 动 词 占 标记 百分比 、 形 容 词 或 副词 占 标 记 百分比 。 

语义 特征 : 产品 方面 和 情感 词 。 

元 数据 特征 : 评论 评级 〈 星 级 数 ) 。 

Zhang 和 Varadarajan (2006) 将 这 个 问题 视 为 一 个 回归 问题 。 他 们 使 用 了 类 似 的 特征 ， 例 如 评 
论 长 度 、 评 论 评分 、 某 些 特定 POS 标注 的 数量 、 情 感 词 、tfidf 加 权 分 数 、wh-words、 产 品 方面 提 
到 的 内 容 、 与 产品 规格 的 比较 、 与 编辑 评论 的 比较 等 。 

与 上 述 方法 不 同 ，Liu A (2008) 考虑 了 三 个 主要 因素 ， 即 评论 者 的 专业 性 、 评 论 的 及 时 性 
以 及 基于 POS 标注 的 评论 风格 ， 并 提出 了 一 个 非 线性 回归 模型 来 整合 这 些 因素 ， 这 项 工作 的 重点 
是 影评 。 

在 Ghose 和 Ipeirotis 的 文章 (2007 和 2010) 中 使 用 了 三 组 额外 的 特征 ， 即 评论 者 简介 〈 可 从 
审查 站 点 获得 ) 、 评 论 者 历史 记录 (捕获 他 /她 的 过 去 评论 的 帮助 性 ) 以 及 一 组 可 读 性 特征 ， 即 可 
读 性 研究 中 的 拼写 错误 和 可 读 性 指数 。 为 了 实现 更 好 的 研究 ， 作 者 尝试 了 回归 和 二 元 分 类 。 

Lu 等 人 (0100 从 另 一 个 角度 来 看 待 这 个 问题 。 他 们 研究 了 评论 者 的 社交 背景 ， 以 便 发 现 这 
些 社交 背景 信息 如 何 有 助 于 提高 基于 文本 的 评论 质量 预测 的 准确 性 。 他 们 认为 , 社交 背景 可 以 揭示 
关于 评论 者 业务 素养 方面 的 大 量 信息 , 而 这 些 信息 反 过 来 又 会 影响 他 们 撰写 评论 的 质量 ,具体 来 说 ， 
他 们 的 方法 基于 以 下 假设 。 


o ”作者 一 致 性 假设 : 来 自 同一 作者 的 评论 具有 相似 的 质量 。 
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e ”信任 一 致 性 假设 : 从 评论 人 nh 到 评论 人 Ts 的 链接 是 一 种 显 性 或 隐 性 的 信任 声明 。 只 有 当 评 
论 人 Ts 的 个 人 水 平 至 少 与 评论 人 一 样 高 时 ， 评 论 人 nn 才 信 任 评 论 人 7。 
e X3|—5 B4 iR: 人 们 在 信任 他 人 的 方式 上 是 一 致 的 。 因 此 ， 如 果 两 个 评论 者 外 和 Tz 被 同 
一 个 第 三 评论 者 r 所 信任 ， 那 么 他 们 的 水 平 应 该 是 相似 的 。 
€ ”链接 一 致 性 假设 : 如 果 两 个 人 在 社交 网 络 中 有 联系 (ni 信任 72, 或 1 信任 ri, AMARA )， 
那么 他 们 的 评论 质量 应 该 是 相似 的 。 
Lu 等 人 将 这 些 假设 作为 正则 化 约束 加 入 基于 文本 的 线性 回归 模型 中 ， 以 解决 评论 质量 预测 问 
题 。 在 实验 中 ， 作 者 使 用 了 来 自 社区 评论 网 站 Ciao Cwww.ciao.co.uk) 上 的 数据 。 在 Ciao 中 ， 人 
们 不 仅 为 产品 和 服务 写 评论 ， 还 会 对 别人 写 的 评论 进行 评分 。 此 外 ， 如 果 人 们 发 现 社区 里 这 些 成 员 
的 评论 总 是 有 意义 且 有 帮助 ， 他 们 可 以 向 其 信任 成 员 网 络 或 “信任 圈 ” 添 加 相关 成 员 。 显然， 这 种 
技术 不 适用 于 没有 信任 社交 网 络 的 网 站 。 


10.12 ”利用 TensorFlow 进行 中 文 情 感 分 析 实 现 


这 里 我 们 使 用 谭 松 波 的 酒店 评论 语 料 进行 酒店 正面 和 负面 评论 的 情感 分 析 。 


10.12.1 训练 语 料 


训练 样本 分 别 放 置 在 两 个 文件 夹 里 :pos 和 neg， 每 个 文件 夹 里 有 2000 个 TXT 文件 ， 每 个 文 
件 内 有 一 段 评语 ， 共 有 4000 个 训练 样本 ， 这 样 大 小 的 样本 数据 在 自然 语言 处 理 (NLP) 中 属于 非 
常 迷你 类 型 的 。 


10.12.2 ”分词 和 切 分 词 


首先 我 们 去 掉 每 个 样本 的 标点 符号 , 然后 用 Jieba (结巴 , 中 文 分 词 的 工具 包 之 一 ) 分 词 ，Jieba 
分 词 返 回 一 个 生成 器 , 没 法 直接 进行 切 分 词 (Tokenize), 所 以 我 们 将 分 词 结果 转换 成 一 个 列表 (List)， 
并 将 它 索 引 化 ， 这 样 每 一 例 评价 的 文本 变 成 一 段 索引 数字 ， 对 应 着 预 训练 词 向 量 模型 中 的 词 。 


+ 进行 分 词 和 切 分 词 (Tokenize) 
# train tokens 是 一 个 长 长 的 列表 ， 其 中 含有 4000 个 小 列表 ， 对 应 每 一 条 评价 
train tokens = [] 
for text in train texts orig: 
# 去 掉 标 点 
text = re. sub (" [\s+\.\!\/_r $8^* (+\"\']+] [43— 5 o? ,-04Y $...8* () ] 5", "", text) 
+ 结巴 分 词 
cut = jieba.cut (text) 
# 结巴 分 词 的 输出 结果 为 一 个 生成 器 
# 把 生成 器 转换 为 列表 
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cut list = [ i for i in cut ] 
for i, word in enumerate(cut list): 
try: 
# 将 词 转换 为 索引 (index) 
cut list[i] = cn model.vocab[word].index 
except KeyError: 
# 如 果 词 不 在 字典 中 ， 就 输出 0 
cut list[i] = 0 


train tokens.append(cut list) 


10.12.3 索引 长 度 标准 化 

因为 每 段 评 语 的 长 度 是 不 一 样 的 , 我 们 如 果 单 纯 取 最 长 的 一 个 评语 , 并 把 其 他 评语 填充 成 同样 
的 长 度 ， 就 会 十 分 浪费 计算 资源 ， 所 以 我 们 取 一 个 折 中 的 长 度 。 

# 获得 所 有 短语 (tokens) 的 长 度 


num tokens = [ len(tokens) for tokens in train tokens ] 


num tokens = np.array (num tokens) 
+ W tokens 平均 值 并 加 上 两 个 tokens 的 标准 差 
+ Bit tokens 长 度 的 分 布 为 正 态 分 布 ， 则 max tokens 这 个 值 可 以 涵盖 95% 左 右 的 样本 


max tokens = np.mean(num tokens) + 2 * np.std(num tokens) 


max tokens = int(max tokens) 
max tokens 


10.12.4. 反 向 切 分 词 


我 们 定义 一 个 函数 ， 用 来 把 索引 转换 成 可 阅读 的 文本 ， 这 对 于 程序 调试 (Debug) 很 重要 。 
# 用 来 将 短语 (tokens) 转换 为 文本 


def reverse tokens (tokens): 
text = '' 
for i in tokens: 
if i l= 0: 
text = text + cn model.index2word[i] 
else: 
text = text 4 Ta 


return text 


reverse = reverse tokens(train tokens[0]) 
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10.12.5 ”准备 词 向 量 矩 阵 


现在 我 们 来 为 模型 准备 词 向 量 矩 阵 (Embedding Matrix) 。 根 据 Keras 的 要 求 ， 我 们 需要 准备 
一 个 维度 为 mumwords,embeddingdim) 的 矩阵 ,numwords 代表 我 们 使 用 的 词汇 的 数量 ,emdeddingdim 
在 我 们 使 用 的 预 训练 词 向 量 模型 中 是 300， 每 一 个 词汇 都 用 一 个 长 度 为 300 的 向 量 表示 。 

注意 ， 我 们 只 选择 使 用 前 50 000 个 使 用 频率 最 高 的 词 ， 在 这 个 预 训练 词 向 量 模型 中 ， 一 共有 
2 600 000 个 词汇 ， 全 部 使 用 在 分 类 问题 上 会 很 浪费 计算 资源 ， 因 为 我 们 的 训练 样本 很 小 ， 一 共 只 
有 4000 个 ,如果 有 100 000 个 、200 000 个 甚至 更 多 的 训练 样本 ,在 分 类 问题 上 可 以 考虑 减少 使 用 
的 词汇 量 。 


10.12.6 ”填充 和 截 短 


我 们 把 文本 转换 为 短语 索引 之 后 , 每 一 串 索 引 的 长 度 并 不 相等 ,为 了 方便 模型 的 训练 , 我们 需 
要 把 索引 的 长 度 标准 化 。 前 面 我 们 选择 了 236 这 个 可 以 涵盖 95% 训 练 样本 的 长 度 ， 接 下 来 进行 填 
充 (Padding) PMH (Truncating) ， 我 们 一 般 采 用 "pre' 的 方法 ， 这 会 在 文本 索引 的 前 面 填 充 0, 
根据 一 些 研究 资料 中 的 实践 ， 如 果 在 文本 索引 后 面 填充 0， 就 会 对 模型 造成 一 些 不 良 影响 。 


10.2.7. ”构建 模型 


在 这 个 教程 中 尝试 了 几 种 神经 网 络 结构 ， 因 为 训练 样本 比较 少 ， 所 以 我 们 可 以 尽情 尝试 , 训练 
过 程 等 待 时 间 并 不 长 。 
€ GRU: 如 果 使 用 GRU， 测 试 样 本 可 以 达到 87% 的 准确 率 ， 但 作者 测试 自己 的 文本 内 容 时 
发 现 ，GRU 最 后 一 层 激活 函数 的 输出 都 在 0.5 左右 ， 说 明 模 型 的 判断 不 是 很 明确 ， 信 心 
比较 低 ， 而 且 经 过 测试 发 现 模型 对 于 否定 名 的 判断 有 时 会 失误 ， 我 们 期 望 对 于 负面 样本 
输出 接近 0， 正 面 样本 接近 1， 而 不 是 都 徘徊 于 0.5 之 间 。 
© BiLSTM: 测试 了 LSTM 和 BiLSTM， 发 现 BiLSTM 的 表现 最 好 ，LSTM 的 表现 略 好 于 
GRU， 这 可 能 是 因为 BILSTM 对 于 比较 长 的 句子 结构 有 更 好 的 记忆 ， 有 兴趣 的 朋友 可 以 
深入 研究 一 下 。 
向 量化 之 后 ， 第 一 层 我 们 用 BiLSTM 返回 序列 (Sequence) ， 然 后 第 二 层 16 个 单元 的 LSTM 
不 返回 序列 (Sequence) ， 只 返回 最 终结 果 , 最 后 是 一 个 全 链接 层 , 用 sigmoid 激活 函数 输出 结果 。 


model.add(Dense(1, activation-'sigmoid')) 
# 我 们 使 用 adam UL 0.001 的 学 习 率 (Learning Rate) 进行 优化 


optimizer = Adam(lr-1e-3) 


4 SEX early stoping， 如 果 3 个 epoch (3 次 训练 ) 内 验证 损失 (validation Loss) 没有 改善 ， 
就 停止 训练 


earlystopping = EarlyStopping(monitor-'val loss', patience-3, verbose-1) 


+ 自动 降低 学 习 率 (Learning Rate) 


lr reduction = ReduceLROnPlateau (monitor-'val loss', 
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factor=0.1, min lr=le-5, patience=0, 


verbose-1) 


* 开始 训练 

model.fit(X train, y train, 
validation split-0.1, 
epochs-20, 
batch size-128, 
callbacks-callbacks) 


10.12.8 结论 


首先 对 测试 样本 进行 预测 ， 得 到 了 还 算 满意 的 准确 度 。 


之 后 定义 一 个 预测 函数 来 预测 输入 的 文本 的 极 性 〈 正 面 ， 负 面 或 中 性 ) ， 可 见 模型 对 于 否定 句 


和 一 些 简单 的 逻辑 结构 都 可 以 进行 准确 的 判断 。 


def predict sentiment (text): 
print (text) 
# 去 标点 


text = re.sub("[NS*N. V! M. ,$8^* (+\"\']+| [+l e? 0E Y $...8* () ] *", "", text) 


* 分 词 

cut = jieba.cut (text) 

cut list = [ i for i in cut ] 

# tokenize 

for i, word in enumerate(cut list): 
try: 


cut list[i] = cn model.vocab[word].index 


except KeyError: 
cut list[i] = 0 
* padding 


tokens pad - pad sequences([cut list], maxlen-max tokens, 


padding-'pre', truncating-'pre') 


# 预测 

result = model.predict(x-tokens pad) 
coef = result[0][0] 

if coef >= 0.5: 


print (' 是 一 例 正面 评价 ', 'output-$.2f'$coef) 


else: 


print (' 是 一 例 负面 评价 ', 'output-$.2f'$coef) 
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代码 运行 后 的 输出 结果 如 下 : 


酒店 设施 不 是 新 的 ， 服 务 态度 很 不 好 
是 一 例 负面 评价 output=0.14 
酒店 卫生 条 件 非 常 不 好 

是 一 例 负面 评价 output=0.09 
床铺 非常 舒适 

是 一 例 正面 评价 output-0.76 
房间 很 凉 ， 不 给 开 暖 气 

是 一 例 负面 评价 output=0.17 
房间 很 凉爽 ， 空 调 冷气 很 足 

是 一 例 正面 评价 output=0.66 
酒店 环境 不 好 ， 住 宿 体 验 很 不 好 

是 一 例 负面 评价 output=0.06 
房间 隔音 不 到 位 

是 一 例 负面 评价 output=0 
晚上 回来 发 现 没 有 打扫 卫生 
是 一 例 负面 评价 output=0.25 

因为 过 节 ， 所 以 要 我 临时 加 钱 ， 比 团购 的 价格 贵 
是 一 例 负面 评价 output=0.06 


经 过 查看 ， 发 现 被 错误 分 类 的 文本 的 含义 大 多 比较 含糊 ， 即 使 是 人 类 也 不 容易 判断 其 极 性 ， 如 
下 面 索引 (index) 为 101 的 这 个 句子 ， 好 像 没有 一 点 满意 的 成 分 ， 但 这 个 评价 在 训练 样本 中 被 标 
注 成 正面 评价 ， 而 我 们 的 模型 做 出 的 负面 评价 的 预测 似乎 是 合理 的 。 

# 我 们 来 找 出 错误 分 类 的 样本 看 看 

idx-101 

print(reverse tokens (X test[idx])) 

print (' 预 测 的 分 类 ',y_pred[idx]) 

print (' 实 际 的 分 类 ',y actual[idx]) 


m 


7 


代码 运行 后 的 输出 结果 如 下 : 


由 于 2007 年 有 一 些 新 问题 可 能 还 没 来 得 及 解决 我 因为 工作 需要 经 常 要 住 那里 所 以 慎重 的 提出 以 下 : 1 后 
的 淋浴 喷头 的 位 置 都 太 高 我 换 了 房间 还 是 一 样 很 不 好 用 2 后 的 一 些 管理 和 服务 还 很 不 到 位 尤其 是 前 台 入 住 
和 时 代 效 率 太 低 每 次 都 超过 10 分 钟 好 像 不 符合 宾馆 的 要 求 

预测 的 分 类 0 


实际 的 分 类 1.0 


10.13 总结 


本 章 首 先 介绍 了 情感 分 析 的 应 用 、 情 感 问题 的 界定 及 情感 文档 的 分 类 ; 其 次 对 于 句子 意见 的 主 


观 性 、 基 于 方面 CAspecO 的 情感 分 析 、 
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情感 词典 的 生成 、 比 较 意见 分 析 及 意见 搜索 做 了 介绍 ; 接 


着 重点 阐述 了 垃圾 评论 的 各 种 情况 和 评论 质量 的 问题 ; 最 后 利用 TensorFlow 对 于 酒店 评论 样本 数 
据 进 行 了 情感 分 析 建 模 比较 ， 并 得 出 了 相关 结论 。 

在 问题 解读 部 分 , 我 们 通过 Apple iPhone 8 Plus 手机 评论 的 例子 引出 了 关于 意见 定义 的 4 个 组 
成 部 分 ， 涉 及 两 个 著名 的 词汇 : 实体 (Entity〉 和 方面 (Aspect) ， 并 对 这 个 专 有 名 称 进行 了 相关 


解读 。 
接着 , 在 垃圾 评论 检测 部 分 ， 我们 


点 做 了 详细 解读 ， 从 垃圾 评论 的 类 型 、 垃 圾 评论 常见 数据 


集 到 垃圾 评论 检测 的 方法 (基于 文本 内 容 的 垃圾 评论 检测 方法 、 基 于 用 户 行为 的 垃圾 评论 检测 方法 、 


基于 表示 学 习 的 垃圾 评论 检测 方法 ) 等 。 


在 评论 质量 问题 部 分 , 我 们 将 评论 的 质量 表述 为 一 个 回归 


问题 ， 并 详细 探讨 了 从 一 个 回归 问题 的 角度 解决 评论 质量 问题 的 相关 方法 。 
最 后 , 我 们 给 出 了 一 个 基于 中 文 酒店 评论 数据 集 的 情感 分 析 案例 , 从 前 期 数据 处 理 到 模型 构建 


及 结果 分 析 ， 我 们 都 做 了 相关 解读 。 


下 一 章 ， 我 们 将 要 讲述 机 器 翻译 的 内 容 ， 这 也 是 自然 语言 处 理 (NLP) 领域 的 一 个 热门 课题 。 


机 器 翻译 


根据 维基 百科 给 出 的 定义 , 机 器 翻译 (Machine Translation, MT) 是 计算 语言 学 的 一 个 子 领域 ， 
主要 研究 利用 软件 将 文本 或 语音 从 一 种 语言 翻译 到 另 一 种 语言 。 被 翻译 的 语言 称 为 源 语言 (Source 
Language) ， 翻 译 得 到 的 语言 称 为 目标 语言 (Target Language) 。 简 单 地 理解 ， 机 器 翻译 的 目标 就 
是 建立 起 高 效 的 自动 翻译 方法 、 模 型 和 信息 系统 , 以 除去 语言 之 间 的 壁 全 ,最 终 得 以 实现 任何 时 刻 、 
任何 地 点 和 任何 语言 的 自动 翻译 功能 ， 使 得 人 类 可 以 无 障碍 地 自由 交流 。 

在 日 常生 活 中 ,我们 习惯 感知 (包括 听 到 、 看 到 和 读 到 ) 自己 母语 内 的 声音 和 文字 。 大 多 数 人 
只 能 感知 自身 的 母语 ， 这 对 于 我 们 扩展 自身 母语 体系 之 外 的 社交 、 学 习 、 工 作 来 说 ， 机 器 翻译 就 会 
发 挥 其 良好 的 贴身 服务 功能 ,在 生活 和 工作 中 扮演 着 重要 的 角色 。 从 理论 上 来 讲 ， 机 器 翻译 会 涉及 
计算 语言 学 、 语 言 学 、 机 器 学 习 和 认 知 科学 等 多 个 学 科 ， 显 然 是 一 个 比较 典型 的 多 学 科 交 叉 研 究 课 
题 ， 所 以 对 这 项 研究 的 推进 工作 意义 重大 ,不 但 有 助 于 提高 相关 学 科 的 发 展 水 平 ， 揭 示人 脑 完成 跨 
语言 思考 的 奥秘 ， 而 且 有 利于 自然 语言 处 理 技术 的 快速 发 展 。 从 应 用 上 来 看 ， 无 论 是 普通 个 人 、 企 
业 还 是 政府 机 构 ， 均 迫切 需要 机 器 翻译 这 个 强大 的 工具 ， 尤 其 是 在 “互联 网 +”“ 地 球 村 ”的 新 时 
期 , 我 们 正面 临 多 着 语言 多 领域 呈现 的 大 数据 形成 的 常态 化 问题 , 机 器 翻译 已 成 为 众多 应 用 领域 变 
革 的 核心 技术 之 一 。 

机 器 翻译 利用 语言 学 原理 及 机 器 自动 识别 语法 , 调用 存储 的 语料库 自动 进行 对 应 翻译 , 但 由 于 
语法 、 词 法 、 句 法 发 生变 动 或 不 规则 性 ， 输 出 的 结果 也 会 存在 一 定 的 错误 率 。 在 基本 操作 层面 上 ， 
机 器 翻译 为 了 目标 语言 中 的 词 而 对 源 语 言 中 的 词 进行 简单 替换 , 这 种 方法 通常 不 会 产生 良好 的 文本 
翻译 效果 , 因为 需要 识别 源 语言 中 整个 短语 及 其 在 目标 语言 中 最 接近 的 对 应 短语 或 词 。 而 利用 语 料 
库 统计 和 神经 网 络 技术 就 能 够 解决 这 个 问题 ,可 以 产生 更 好 的 翻译 : 处 理 语言 类 型 学 习 的 差异 、 习 
惯 语法 的 翻译 和 异常 情况 的 隔离 等 。 

神经 网 络 机 器 翻译 (Neural Machine Translation; NMT) 是 一 种 机 器 翻译 方法 ， 它 使 用 大 型 人 
工 神经 网 络 来 预测 词 序列 的 可 能 性 , 通常 在 单个 集成 模型 中 对 整个 句子 进行 建 模 。 深度 神经 网 络 机 
器 翻译 是 神经 网 络 机 器 翻译 的 延伸 ， 目 前 比较 流行 。 两 者 都 使 用 大 型 神经 网 络 ， 区 别 在 于 深度 神经 
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网 络 机 器 翻译 处 理 多 个 神经 网 络 层 而 不 是 一 个 神经 网 络 。 一 般 情况 下 , 源 语言 的 句子 长 度 与 目标 语 
言 对 应 的 句子 长 度 是 不 同 的 , 而 且 在 处 理 过程 中 会 涉及 多 对 复杂 的 映射 任务 , 这 就 需要 我 们 采用 序 
列 到 序列 学 习 技 术 , 序列 到 序列 可 以 处 理 任意 长 度 序列 映射 到 另 一 个 任意 长 度 序列 的 复杂 情况 , 常 
见 的 示例 包括 神经 网 络 机 器 翻译 (NMT) 和 创建 聊天 机 器 人 。 我 们 可 以 利用 NMT 将 句子 从 一 种 语 
言 〈 源 语言 ) 翻译 成 另 一 种 语言 〈 目 标语 言 ) ， 谷 歌 翻译 就 是 NMT 系统 应 用 的 一 个 例子 。 

在 深入 研究 NMT 之 前 ， 我 们 先 简要 介绍 一 下 统计 机 器 翻译 CStatistical Machine Translation, 
SMT) 方法 ， 这 些 方法 在 NMT 之 前 是 最 先进 的 系统 ， 接 下 来 介绍 构建 NMT 所 需要 的 相关 步骤; 
最 后 学 习 如 何 实 施 一 个 真正 的 NMT 系统 ， 逐 步 将 德语 翻译 成 英语 。 


11.1 机 器 翻译 简介 


与 其 他 沟通 方法 (如 手势 ) 相 比 ， 人 类 通常 通过 语言 相互 沟通 。 目 前 ,全 世界 正在 使 用 的 语言 
超过 5,000 种 。 虽 然 将 语言 学 习 到 本 地 人 员 能 够 轻松 理解 的 水 平 是 一 项 难以 完成 的 任务 ， 但 是 通过 
语言 沟通 对 于 分 享 知识 、 社 交 和 扩展 视野 来 说 至 关 重 要 。 因 此 , 语言 就 成 了 我 们 与 世界 不 同 地 区 进 
行 交流 的 一 个 潜在 障碍 。 这 时 ， 机 器 翻译 (MT) 就 有 了 用 武之 地 ， 因 为 MT 系统 允许 用 户 用 自己 
的 语言 输入 句子 〈 称 为 源 语言 ) 并 输出 所 需 目 标语 言 的 句子 。 


Ws = (wi W2, wa wr} 
XH, Wes. 
源 语 言 将 被 翻译 成 句子 wr， 其 中 T 是 目标 语言 ， 由 以 下 内 容 给 出 ; 
Wr = (w'y, w'2,w's, ,w'y) 
这 里 ，Wr ET。 
Wr 通过 MT 系统 获得 ， 相 关 输 出 如 下 : 
pWr | Ws)vWr € W'r 
这 里 ，W'r 是 算法 找 出 的 可 能 的 翻译 候选 项 池 。 此 外 ， 候 选项 池 中 的 最 佳 候 选项 可 通过 以 下 等 
式 给 出 : 
wè est = argmaXx(wrewn)(P(Wr | Ws); 0) 
这 里 ，9 是 模型 参数 。 在 训练 期 间 ， 我 们 通过 最 大 化 一 组 源 语 言 所 对 应 的 已 知 目标 语言 的 翻译 
概率 来 优化 模型 。 
到 目前 为 止 , 我 们 讨论 了 有 意 要 解决 的 语言 翻译 问题 的 正式 设置 。 接 下 来 , 我 们 将 对 机 器 翻译 
的 历史 沿革 进行 梳理 ， 以 了 解 人 们 在 早期 如 何尝 试 解决 这 个 问题 。 
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11.2 ”基于 规则 的 翻译 


机 器 翻译 (MT) 最 初 涉及 的 是 基于 规则 的 系统 , 然后 出 现 了 更 具 统 计 学 意义 的 机 器 翻译 系统 。 
统计 机 器 翻译 CSMTO 是 使 用 各 种 语言 统计 度量 来 生成 另 一 种 语言 的 翻译 。 最 后 是 神经 网 络 机 器 
翻译 CNMT ) 的 时 代 , 与 其 他 方法 相 比 , NMT 目前 在 大 多 数 机 器 学 习 任务 中 保持 着 最 先进 的 性 能 。 

基于 规则 的 机 器 翻译 CRule-Based Machine Translation, RBMT; 机 器 翻译 的 “经 典 方法 ”) 
是 基于 源 语言 和 目标 语言 的 语言 信息 的 机 器 翻译 系统 ， 基 本 上 从 ( 单 语 、 双 语 或 多 语言 ) 词典 及 包 
含 的 主要 语义 、 形 态 和 人 句法 的 语法 中 检索 每 种 语言 的 规律 。 在 输入 句子 (在 某 种 源 语言 中 ) 的 基础 
E, RBMT 系统 就 基于 对 具体 翻译 任务 中 涉及 的 源 语言 和 目标 语言 的 形态 学 、 句 法 和 语义 分 析 ， 
生成 相应 输出 句子 〈 在 一 些 目标 语言 中 ) 。 

基于 规则 的 机 器 翻译 (RBMT) 类 型 包括 基于 转换 的 机 器 翻译 、 基 于 语 际 的 机 器 翻译 和 基于 字 
典 的 机 器 翻译 。RBMT 主要 用 于 创建 词典 和 语法 程序 。 与 其 他 方法 不 同 ，RBMT 使 用 源 语 言 和 目 
标语 言 的 形态 和 句法 规则 及 语义 分 析 , 涉及 两 种 语言 学 的 更 多 信息 。 基 本 方法 涉及 使 用 解析 器 和 源 
语言 分 析 器 、 目 标语 言 的 生成 器 及 实际 翻译 的 转换 词典 来 连接 输入 句子 的 结构 和 输出 句子 的 结构 。 
RBMT 最 大 的 缺点 是 必须 明确 所 有 内 容 ， 为 了 应 对 它 ， 必 须 将 拼写 变异 和 错误 输入 作为 源 语言 分 
析 器 的 一 部 分 ， 并 且 必 须 为 所 有 歧义 实例 编写 词法 选择 规则 。 


11.2.1 基于 转换 的 机 器 翻译 


基于 转换 的 机 器 翻译 类 似 于 语 际 机 器 翻译 , 因为 它 从 模拟 原始 句子 含义 的 中 间 表 示 中 创建 翻译 。 
如 图 11-1 HR, Bernard Vauquois 金字 塔 显示 了 有 具有 中 间 代 表 性 的 比较 深度 , 在 峰值 处 有 基于 语 际 
的 机 器 翻译 ， 然 后 是 基于 转换 的 机 器 翻译 ， 最 下 面 是 直接 翻译 。 与 基于 语 际 机 器 翻译 不 同 的 是 ， 其 
部 分 取决 于 翻译 中 涉及 的 语言 对 情况 。 


interlingua 


direct translation 


source target 
text text 


11-1 Bemard Vauquois 的 翻译 金字 塔 


与 更 简单 的 机 器 直接 翻译 模型 相 比 , 基于 转换 的 机 器 翻译 将 翻译 分 为 三 个 步骤 : 分 析 源 语言 文 
本 以 确定 其 语法 结构 ;将 结果 结构 转换 到 适合 在 目标 语言 中 生成 文本 的 结构 ， 最 后 生成 这 个 文本 。 
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因此 , 基于 转换 的 机 器 翻译 系统 能 够 很 好 地 理解 源 语言 和 目标 语言 的 知识 体系 ， 下 面 从 设计 、 操 作 
和 转换 分 析 的 角度 对 其 进行 解读 。 

1. 设计 ( Design ) 层面 

基于 转换 和 基于 语 际 的 机 器 翻译 具有 相同 的 思路 : 为 了 进行 翻译 ,必须 具有 获取 原始 句子 “ 含 

义 ” 以 便 生成 正确 翻译 的 中 间 表 示 。 在 基于 语 际 的 机 器 翻译 中 , 这 种 中 间 表 示 一 定 是 独立 于 所 讨论 

的 语言 的 ， 而 在 基于 转换 的 机 器 翻译 中 ， 对 所 涉及 的 语言 对 有 一 定 的 依赖 性 。 
基于 转换 的 机 器 翻译 系统 的 工作 方式 差异 很 大 , 但 一 般 来 说 都 遵循 相同 的 模式 : 应 用 了 一 组 语 

言 规则 , 且 这 些 规则 被 定义 为 源 语言 结构 与 目标 语言 结构 之 间 的 对 应 关系 。 第 一 阶段 涉及 分 析 输 入 

文本 的 形态 和 语法 (有 时 是 语义 ) 以 创建 内 部 表示 ,然后 使 用 双语 词典 和 语法 规则 从 该 表示 生成 翻 

译 。 使 用 这 种 翻译 策略 可 以 获得 高 质量 的 翻译 ， 准 确 度 达到 90% 。 

2. 操作 ( Operation ) 层面 
在 基于 规则 的 机 器 翻译 系统 中 , 首先 在 形态 和 句法 上 分 析 原 始 文 本 以 便 获得 句法 表示 ; 然后 可 

以 将 这 种 表示 细 化 到 更 抽象 的 层次 ， 将 重点 放 在 与 翻译 相关 的 部 分 ， 而 暂时 忽略 其 他 类 型 的 信息 

接着 转换 过 程 将 这 个 最 终 表示 (仍然 是 原始 语言 ) 转换 为 目标 语言 中 相同 抽象 级 别 的 表示 。 这 两 种 

表示 被 称 为 “中 间 ” 表 示 。 从 目标 语言 表示 开始 ， 以 相反 的 方式 应 用 各 阶段 。 

3. 分 析 和 转换 ( Analysis and Transformation ) 层面 
在 获得 最 终结 果 之 前 ， 可 以 使 用 各 种 分 析 和 转换 方法 。 统 计 方 法 可 以 强化 产生 的 混合 系统 ， 选 

择 的 方法 和 重点 部 分 在 很 大 程度 上 取决 于 系统 的 设计 。 尽管 如 此 , 大 多 数 系统 至 少 包 括 以 下 几 个 阶 

Bi 

@ ”形态 分 析 。 输入 文本 的 表层 形态 被 分 类 为 词性 (例如 ， 名词、 动词 等 ) 和 子 类 别 (数字 、 
性 别 、 时 态 等 ) 。 每 个 表层 形态 的 所 有 可 能 的 “分 析 ” 通 常 在 此 阶段 输出 ， 连 同 该 词 的 
词根 (Lemma) 。 

e ”词汇 分 类 。 在 任何 给 定 的 文本 中 ， 一 些 词 可 能 具有 多 个 含义 ， 导 致 分 析出 现 歧义 问题 。 
词汇 分 类 会 查看 这 类 词 的 上 下 文 ， 以 尝试 在 输入 的 上 下 文中 确定 其 正确 的 含义 。 这 可 能 
涉及 词性 标注 和 词义 消 歧 。 

e ”词汇 转换 。 这 里 基本 上 是 字典 翻译 ， 在 双语 词典 中 查找 源 语言 的 词根 ( 可 能 是 有 意义 的 
信息 ) 并 选择 翻译 。 

€ ”结构 转换 。 虽然 前 面 的 阶段 涉及 词 ， 但 这 个 阶段 涉及 较 大 的 组 成 部 分 ， 例 如 短语 和 信息 
3k ( 即 一 种 信息 片段 ， 用 于 许多 多 媒体 格式 ， 如 PNG、IFF、MP3、AVI 等 ) 。 此 阶段 的 
典型 特征 包括 性 别 和 数字 的 一 致 性 ， 以 及 词 或 短语 的 重新 排序 。 

e ”形态 生成 。 从 结构 转换 阶段 的 输出 ， 生 成 目标 语言 表层 形态 。 


4. 转换 的 类 型 


基于 转换 的 机 器 翻译 系统 的 主要 特征 之 一 是 将 原始 语言 中 文本 的 中 间 表 示 “ 转 换 ” 到 目标 语言 
中 文本 的 中 间 表 示 。 这 可 以 在 语言 分 析 的 两 个 层次 之 一 或 者 介 于 两 者 之 间 进 行 ， 具 体 层次 如 下 : 
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o 表层 转换 (或 句法 ) 。 该 层次 是 在 源 语言 和 目标 语言 之 间 转 换 “ 句 法 结构 ”。 它 适用 于 
同一 系列 或 相同 类 型 的 语言 ， 如 西班牙 语 、 加 泰 罗 尼 亚 语 、 法 语 、 意 大 利 语 等 罗曼 语 语 
E (也 称 新 拉丁 语言 ) 。 

€ ”深度 转换 (或 语义 ) 。 该 层次 用 于 更 远 距离 相关 语言 之 间 进 行 的 翻译 ， 如 西班牙 语 、 英 
语 或 西班牙 语 、 巴 斯 克 语 等 。 


11.2.2 ” 语 际 机 器 翻译 


语 际 ( 有 时 也 称 中 间或 桥接 ) 机 器 翻译 (Interlingual machine translation) 是 机 器 翻译 的 经 典 方 
法 之 一 。 该 方法 是 将 源 语 言 ( 要 翻译 的 文本 ) 转换 为 桥接 语言 (独立 于 语言 的 抽象 表示 ) ， 然 后 从 
桥接 语言 生成 目标 语言 。 图 11-2 给 出 了 桥接 语言 的 翻译 过 程 。 

在 基于 规则 的 机 器 翻译 范式 中 , 语 际 方法 是 直接 方法 和 转换 方法 的 替代 。 在 直接 方法 中 , 词 被 
直接 翻译 而 不 经 过 附加 表示 步骤 。 在 转换 方法 中 ， 源 语言 被 转换 成 抽象 的 、 较 少 特定 语言 的 表示 。 

语 际 机 器 翻译 的 优点 在 于 , 为 了 将 源 语言 与 目标 语言 关联 起 来 ， 所 需 的 组 件 更 少 , 添加 新 语言 
所 需 的 组 件 也 更 少 ; 它 支 持原 始 语言 中 输入 的 释义 ; 允许 分 析 器 和 生成 器 都 是 由 单 语 系统 开发 人 员 
编写 ; 可 以 处 理 彼此 差异 非常 大 的 语种 (如 英语 和 阿拉 伯 语 ) 。 明 显 的 缺点 是 ， 对 于 更 广泛 的 领域 
来 说 , 语 际 的 定义 是 困难 的 ， 甚 至 是 不 可 能 的 。 因 此 , 语 际 机 器 翻译 的 理想 语 境 是 在 一 个 非常 特定 
的 领域 中 进行 多 语言 机 器 翻译 。 


SE 


图 11-2 利用 桥接 语言 进行 翻译 的 过 程 

1. 语 际 机 器 翻译 的 历史 背景 

关于 语 际 机 器 翻译 的 第 一 个 想法 出 现在 17 世纪 ， 笛 卡尔 (Descartes) 和 莱 布 尼 效 (Leibniz) 
提出 了 如 何 使 用 通用 数字 代码 创建 字典 的 理论 .其 他 人 , 如 Cave Beck. Athanasius Kircher 和 Johann 
Joachim Becher， 他 们 致力 于 开发 一 种 基于 逻辑 和 图 像 学 原理 的 明确 通用 语言 。1668 年 ， 约 输 ， 威 
尔 金 斯 (John Wilkins) 在 “ 论 真正 的 性 格 和 哲学 语言 ”论文 中 描述 了 他 的 语 际 〈 中 间 语 言 ) 。 在 
18 世纪 和 19 世纪 ,人 们 开发 了 许多 关于 “通用 ?国际 语言 的 提案 ,其 中 最 著名 的 是 世界 语 (Esperanto )。 

也 就 是 说 , 将 通用 语言 的 概念 应 用 于 机 器 翻译 并 没有 出 现在 任何 重要 的 方法 中 ， 相反， 工作 开 
始 于 成 对 的 语言 。 然 而 ， 在 二 十 世纪 五 十 年 代 和 六 十 年 代 ， 以 玛 格 丽 特 。 马 斯 特 曼 CMargaret 
Masterman) 为 首 的 剑桥 、 尼 古 拉 。 安 德 烈 夫 (Nikolai Andreev) 为 首 的 列宁 格 勒 和 西 尔 维 奥 。 切 
卡 托 (Silvio Ceccato ) 为 首 的 米兰 等 三 地 的 研究 人 员 开始 在 这 一 领域 开展 工作 。 以 色 列 哲学 家 
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Yehoshua Bar-Hillel 于 1969 年 才 广泛 讨论 了 这 一 想法 。 

二 十 世纪 七 十 年 代 ， 在 格 勒 诺 布尔 市 〈Grenoble， 法 国 东南 部 城市 ， 伊 泽 尔 省 首府 ) ， 研 究 人 
员 试 图 将 物理 学 和 数学 文本 从 俄语 翻译 成 法 语 ， 这些 相关 研究 才 开始 引起 注意 。 在 德 克 萨 斯 州 ， 类 
似 的 项 目 (METAL ) 正在 进行 俄语 翻译 到 英语 的 研究 。 20 世纪 70 年 代 , 罗 杰 * 申 克 (Roger Schank) 
和 约 瑞 克 " 威 尔 克 斯 (Yorick Wilks) 在 斯 坦 福 就 建立 了 早期 的 语 际 机 器 翻译 系统 ， 前 者 〈 罗 杰 " 申 
克 早 期 的 语 际 机 器 翻译 系统 ) 演变 为 商业 资金 转移 系统 的 基础 ， 后 者 ( 约 瑞 克 * 威 尔 克 斯 早期 的 语 
际 机 器 翻译 系统 ) 的 代码 保存 在 波士顿 的 计算 机 博物 馆 ， 作 为 第 一 个 语 际 机 器 翻译 系统 。 

在 二 十 世纪 八 十 年 代 , 基于 中 间 语 和 基于 知识 的 机 器 翻译 方法 重新 得 到 了 重视 , 在 该 领域 进行 
了 大 量 研究 。 这 项 研究 的 联合 因素 是 高 质量 的 翻译 需要 放弃 要 求 对 文本 全 面 理 解 的 想法 , 翻译 应 基 
于 语言 知识 和 系统 使 用 的 特定 领域 。 当 代 最 重要 的 研究 是 在 乌 得 勒 支 市 (Utrecht) 完成 的 分 布 式 语 
言 翻译 (Distributed Language Translation, DLT) ， 该 翻译 研究 中 使 用 了 世界 语 的 修改 版 本 和 日 本 
的 富士 通 系统 。 

2. 语 际 机 器 翻译 概要 

语 际 (中 间 语 言 ) 可 以 被 认为 是 一 种 描述 对 源 语言 编写 的 文本 进行 分 析 的 一 种 方法 ， 从 而 可 以 
将 其 形态 、 句法、 语义 特征 ， 即 “意思 ”转换 为 目标 语言 。 这 个 中 间 语 言 能 够 描述 所 有 要 翻译 的 语 
言 的 所 有 特征 ， 而 不 是 简单 地 从 一 种 语言 翻译 成 另 一 种 语言 。 图 11-3 给 出 了 语 际 机 器 翻译 与 简单 
机 器 翻译 的 简要 对 比 情况 。 


uv di... 
o 70 


(a) 直接 或 基于 传输 的 机 器 (b) 使 用 语 际 时 所 需 的 
翻译 所 需 的 翻译 需要 12 个 词典 ) 翻译 〈 仅 需要 8 个 翻译 模块 ) 


图 11-3 语 际 机 器 翻译 与 简单 机 器 翻译 的 简要 对 比 


有 时 在 翻译 中 使 用 两 个 语 际 , 其 中 一 个 涵盖 更 多 的 源 语言 特征 , 男 一 个 则 具有 更 多 的 目标 语言 
特征 , 然后 翻译 通过 两 个 阶段 将 句子 从 源 语言 转换 为 更 接近 目标 语言 的 句子 。 还 可 以 对 系统 进行 相 
关 设 置 ， 使 得 第 二 个 语 际 使 用 更 接近 或 更 符合 目标 语言 的 具体 词汇 ， 以 便 提高 翻译 质量 。 图 11-4 
给 出 了 使 用 两 个 语 际 的 翻译 示意 图 。 

上 述 系统 的 思想 基础 是 : 使 用 语言 接近 性 来 提高 从 一 种 原始 语言 的 文本 到 许多 其 他 结构 相似 的 

言 的 翻译 质量 ， 这 种 翻译 质量 来 自 于 一 种 原始 分 析 。 该 原理 也 用 于 Pivot 机 器 翻译 ， 其 中 自然 语 
被 用 作 两 种 更 远 语言 之 间 的 “桥梁 ”, 如 使 用 俄语 作为 语 际 (中 间 语 言 ) 从 乌克兰 语 翻译 成 英语 。 


W 


总 
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图 11-4 使 用 两 个 语 际 的 翻译 


3. 语 际 机 器 翻译 流程 

在 语 际 机 器 翻译 系统 中 有 两 个 单 语 组 件 : 源 语言 和 语 际 的 分 析 及 语 际 和 目标 语言 的 生成 .然而 
有 必要 区 分 仅 使 用 句法 方法 的 语 际 系统 (如 二 十 世纪 七 十 年 代 在 格 勒 诺 布尔 和 德 克 萨 斯 大 学 开发 的 
系统 ) 和 基于 人 工 智能 的 系统 1987 年 在 日 本 、 南 加 州 大 学 和 卡耐基 梅 隆 大 学 的 研究 ) 。 第 一 种 
类 型 的 系统 对 应 于 图 11-2 中 概述 的 系统 ， 其 他 类 型 类 似 于 图 11-5 所 示 的 内 容 。 


Lexicón conceptual 


Gramáticas de análisis + Texto en 
r lexicón de análisis interlingua 
desambiguado 


Lexicón de generación y 
reglas de proyección 


Intérprete 
reglas de ~ |< Reglas de proyección 
proyección 


Generador 

> 
图 11-5 基于 认 知 系统 的 机 器 翻译 

对 于 语 际 机 器 翻译 系统 而 言 ， 其 需要 以 下 资源 : 
COD 用 于 分 析 和 生成 的 字典 〈 或 词典 ) ， 特 定 领域 和 所 涉及 的 语言 。 
(2) 概念 词典 〈 特 定 领 域 ) ， 它 是 关于 领域 内 已 知事 件 和 实体 的 知识 库 。 
G) 一 组 映射 规则 〈 特 定 领域 和 语言 ) 。 
(4) 用 于 分 析 和 生成 所 涉及 语言 的 语法 。 


基于 知识 库 的 机 器 翻译 系统 存在 两 个 问题 , 其 一 是 我 们 不 可 能 超过 特定 领域 来 创建 数据 库 ; 其 
二 是 对 这 些 数 据 库 的 计算 成 本 非常 高 。 


Gramática de generación ...... 


LLL mns muse ps 


4. 语 际 机 器 翻译 的 有 效 性 

该 策略 的 主要 优点 之 一 是 它 提供 了 一 种 制作 多 语言 翻译 系统 的 经 济 方法 。 有 了 中 间 语 言 , 就 不 
必 在 系统 中 为 每 一 对 语言 建立 翻译 对 。 因此 , 不 必 创 建 n(n-1) 语 言 对 , 其 中 n 是 系统 中 的 语言 数量 ， 
只 需要 在 n 种 语言 和 中 间 语 言 之 间 建 立 2n 对 即 可 。 

这 种 策略 的 主要 难点 是 难以 创造 合适 的 中 间 语 言 , 它 既 抽象 又 独立 于 源 语言 和 目标 语言 。 添 加 
到 翻译 系统 的 语言 越 多 , 中 间 语 言 表达 所 有 可 能 的 翻译 方向 的 效果 就 越 强 。 另 一 个 难点 是 难以 从 原 
始 语言 的 文本 中 提取 其 含义 以 创建 中 间 表 示 。 


11.2.3 ”基于 字典 的 机 器 翻译 


机 器 翻译 可 以 使 用 基于 字典 条 目的 方法 , 这 意味 着 字 词 将 像 字典 中 逐 字 翻译 一 样 被 翻译 ,通常 
在 这 些 字 词 翻译 之 间 没 有 太 多 意义 上 的 关联 。 无论 存 不 存在 形态 或 词法 分 析 , 通过 字典 查询 的 方式 
均 可 以 完成 这 类 翻译 。 虽然 这 种 机 器 翻译 方法 比较 简单 , 但 是 基于 字典 的 机 器 翻译 理论 上 适用 于 在 
子 语句 (不 是 完整 的 句子 ) 级 别 上 的 长 短语 列表 的 翻译 , 例如 库存 或 简单 产品 和 服务 的 目录 可 以 理 
想 地 适用 这 种 子 语句 〈 即 ， 不 是 完整 句子 ) 级 别 上 的 翻译 。 

如 果 翻 译 人 员 可 以 熟练 地 掌握 需要 处 理 的 两 种 语言 , 就 能 够 快速 纠正 句法 和 语法 , 也 可 以 加 速 
手动 翻译 。 
机 器 翻译 的 最 初 技术 之 一 是 基于 字典 或 字 词 的 机 器 翻译 ， 该 系统 使 用 双语 词典 进行 逐 字 翻 译 。 
但 是 ， 这 种 方法 存在 一 个 明显 的 限制 就 是 词 对 词 的 翻译 不 是 两 种 语言 之 问 简单 的 一 对 一 喘 射 关系 。 
此 外 ， 字 词 到 字 词 的 翻译 可 能 会 导致 错误 的 结果 ， 因 为 它 不 考虑 字 词 的 语 境 。 源 语言 中 字 词 的 翻译 
可 以 根据 使 用 的 语 境 而 改变 。 用 一 个 具体 的 例子 来 理解 这 一 点 , 如 图 11-6 中 是 英语 到 法 语 的 翻译 。 
可 以 看 到 ， 在 给 定 的 两 个 英语 句子 中 ， 一 个 单词 发 生 了 变化 。 


She loves cats She loves him 


Elle aime les chats Elle l'aime 
图 11-6 语言 之 间 的 翻译 (英语 到 法 语 ) 不 是 单词 之 间 简单 的 一 对 一 映射 关系 


1966 年 ， 美 国 国家 科学 院 自动 语言 处 理 咨询 委员 会 (ALPAC) 发 表 了 一 篇 关于 机 器 翻译 前 景 
的 报告 ， 即 《语言 和 机 器 : 翻译 和 语言 学 中 的 计算 机 》 C (Languages and Machines: Computers in 
Translation and Linguistics) ) ， 结 论 是 : 对 于 实用 的 机 器 翻译 而 言 ， 没 有 直接 或 可 以 预测 的 前 景 。 

这 是 因为 当时 的 机 器 翻译 比 人 类 的 翻译 更 慢 、 更 不 准确 、 更 昂贵 , 这 给 机 器 翻译 的 进步 带 来 了 
巨大 打击 ， 导 致 近 十 年 的 沉默 。 

接 下 来 是 基于 语料库 的 机 器 翻译 , 其 中 使 用 源 语句 元 组 训练 算法 , 并 通过 平行 语料库 获得 相应 
的 目标 语句 ， 即 平行 语料库 的 格式 为 ([(<source_sentence_1>,<target_sentence_1>), (<source_sentence_2>, 
«target sentence 2»), .…])。 并 行 语料库 是 一 个 以 元 组 形式 形成 的 大 型 文本 语料库 ， 由 源 语言 的 文本 
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和 对 应 的 文本 翻译 组 成 ， 如 表 11-1 所 示 。 应 该 指出 的 是 ， 构 建 并 行 语料库 比 构建 双语 词典 要 容易 
得 多 并 且 更 准确 ， 因 为 该 方法 训练 数据 时 比 逐 字 训 练 数据 更 丰富 ， 所 以 更 加 精确 。 此 外 ， 使 用 平行 
语料库 可 以 建立 两 种 语言 的 双语 词典 〈 即 转换 模型 )， 而 不 是 直接 依靠 人 工 创 建 的 双语 词典 。 在 给 
定 当前 源 语言 词 /短语 的 情况 下 ， 转 换 模型 显示 目标 词 /短语 被 正确 翻译 的 可 能 性 。 除 了 学 习 转换 模 
型 ， 基 于 语料库 的 机 器 翻译 (MT) 还 学 习 单词 对 齐 模型 。 单 词 对 齐 模型 可 以 表示 来 自 源 语言 的 短 
语 中 的 单词 如 何 对 应 于 该 短语 的 翻译 。 如 图 11-7 是 平行 语料库 和 单词 对 齐 模型 的 示例 。 


表 11-1 并 行 语料库 
Source language sentences Target language sentences 
(English) (French) 
I went home Je suis allé à la maison 
John likes to play guitar John aime jouer de la guitare 
He is from England Il est d'Angleterre 


puer] [ns] fere] [sss] [e 
[roue] [ov] [ns] [mn] [n 


1-7 ”两 个 不 同 语言 之 间 的 单词 对 齐 


11.3 ”统计 机 器 翻译 


统计 机 器 翻译 (Statistical Machine Translation，SMT) 是 一 种 基于 统计 模型 的 机 器 翻译 范式 ， 
统计 模型 的 参数 来 自 双 语文 本 语料库 的 分 析 。 统 计 方法 与 基于 规则 的 机 器 翻译 方法 及 基于 实例 的 机 
器 翻译 形成 对 比 。 

沃 伦 " 韦 弗 (Warren Weaver) 于 1949 年 首先 提出 了 统计 机 器 翻译 的 概念 , 包括 应 用 克 劳 德 香 
农 的 信息 论 思想 。 二 十 世纪 八 十 年 代 末 和 九 十 年 代 初 , IBM 的 托马斯 J，* 沃 森 (Thomas J. Watson? 
研究 中 心 的 研究 人 员 重 新 引入 了 统计 机 器 翻译 , 并 在 很 大 程度 上 促进 了 近年 来 众人 对 机 器 翻译 研究 
的 兴趣 ， 如 今 它 已 是 机 器 翻译 研究 领域 最 广泛 的 方法 。 


11.3.1 统计 机 器 翻译 的 基础 


统计 机 器 翻译 背后 的 理念 来 自信 息 理论 。 根 据 概率 分 布 p(e | 万 翻译 文档 ， 目 标语 言 中 的 字符 
串 e〈 如 英语 ) 是 源 语言 (如 法 语 ) 中 字符 串 工 的 翻译 。 

关于 概率 分 布 p(e | 万 的 建 模 问 题 其 实 已 经 有 多 种 方式 进行 了 探讨 。 一 种 适合 于 计算 机 实现 的 
方法 是 应 用 贝 叶 斯 定理 ， 即 p(e | 户 x p(f 1 e)p(e)， 其 中 翻译 模型 p(f 1 e) 是 源 字 符 串 由 目标 字符 
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串 翻 译 的 概率 ， 语 言 模型 p(e) 是 目标 语言 字符 串 出 现 的 概率 。 这 种 分 解 是 有 吸引 力 的， 因为 它 分 解 
成 了 两 个 子 问题 。 找 到 最 佳 翻译 2 是 通过 选择 一 个 给 出 最 高 概率 的 翻译 来 完成 的 : 


č = ar gmaXçecenp(e | f) = argmax(eee)p(f | e)p(e) 

A SO b cS — S, DESCR cH zr rp RUE E Be! 0 opus td 
索 。 高 效 地 执行 搜索 是 机 器 翻译 解码 器 的 工作 ， 该 解码 器 使 用 外 来 字符 串 、 启 发 式 和 其 他 方法 来 
限制 搜索 空间 ， 且 同时 保持 可 接受 的 质量 。 这 种 在 质量 和 时 间 使 用 之 间 的 折 中 也 可 以 在 语音 识别 
应 用 中 找到 。 

由 于 翻译 系统 无 法 存储 所 有 本 地 字符 串 及 其 翻译 , 因此 文档 通常 逐 句 翻译 , 但 是 即使 这 样 也 是 
不 够 的 。 语 言 模 型 通常 由 平滑 的 n-gram 模型 近似 ， 并 且 类 似 的 方法 已 经 应 用 于 翻译 模型 ， 由 于 语 
言 中 的 句子 长 度 和 单词 顺序 不 同 而 存在 额外 的 复杂 性 。 

统计 翻译 模型 最 初 是 来 自 Stephan Vogel 的 IBM Hidden Markov 的 模型 1-5 和 Franz-Joseph Och 
的 模型 6 等 这 些 具 有 时 代 开 创 性 的 模型 ,它们 进行 了 基于 单词 的 翻译 。 但是， 单词 翻译 不 是 从 源 语 
言 到 目标 语言 的 一 对 一 关系 (如 复合 词 和 形态 ) ， 最 终 研究 人 员 开 始 尝试 基于 短语 的 翻译 系统 ， 这 
些 翻译 系统 在 机 器 翻译 方面 取得 了 显著 的 进步 。 


11.3.2 ”基于 词 的 翻译 


在 基于 词 的 翻译 GE: 在 拼音 文字 中 词 也 指 单词 ) 中 ， 基 本 单位 是 某 种 自然 语言 中 的 词 。 由 于 
合 词 、 词 形态 和 习 语 的 差异 ， 因 此 所 翻译 句子 中 的 词 数量 也 是 不 同 的 。 翻 译 词 序 列 长 度 的 比率 称 

为 生产 率 ， 它 表示 每 个 本 地 词 产生 多 少 个 外 来 词 。 从 信息 理论 的 角度 来 看 ， 必 然 会 假设 每 个 词 都 涵 
盖 相 同 的 概念 ， 而 在 现实 中 ， 这 未 必 都 是 对 的 。 例 如 ， 英 语 单词 comer 可 以 根据 它 是 指 内 部 角度 
或 外 部 角度 翻译 为 西班牙 语 单词 rincón £k esquina. 

简单 的 基于 词 的 翻译 不 能 在 具有 不 同 生产 比率 的 语言 之 问 进 行 翻译 。 而 基于 词 的 翻译 系统 处 理 
高 生产 率 的 语言 相对 容易 些 ， 可 以 将 单个 词 映射 到 多 个 词 ， 反 之 则 不 能 。 例 如 ， 如 果 我 们 从 英语 翻 
译 成 法 语 , 英语 中 的 每 个 单词 都 可 以 产生 任意 数量 的 法 语 单词 ， 有 时 甚至 一 个 也 没有 , 但 是 这 里 却 
没有 办 法 将 两 个 英语 单词 组 合成 一 个 法 语 单词 。 

基于 词 的 翻译 系统 有 一 个 免费 提供 的 GIZA + 软件 包 (GPLed) ， 其 中 包括 IBM 模型 、HMM 
模型 及 模型 6 的 训练 程序 。 

目前 ,基于 词 的 翻译 没有 被 广泛 应 用 ， 而 基于 短语 的 系统 则 比较 常见 ， 大 多 数 基于 短语 的 系 
统 仍然 使 用 GIZA ++ 来 对 齐 语料库 。 对 齐 方法 用 于 提取 短语 或 推导 句法 规则 。 在 双语 中 匹配 词 仍 
然 是 相关 技术 社区 中 积极 讨论 的 问题 。 由 于 GIZA + 的 优势 , 现在 有 几 种 在 线 分 布 式 翻译 系统 得 
以 实现 。 


11.3.3 ”基于 短语 的 翻译 


在 基于 短语 的 翻译 中 , 目的 是 通过 翻译 整个 词 序 列 来 减少 基于 词 的 翻译 限制 , 其 中 词 序 列 长 度 
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可 以 不 同 。 词 序列 被 称 为 词 块 或 短语 , 但 通常 不 是 语言 意义 上 的 短语 ， 而 是 使 用 统计 方法 从 语料库 
中 发 现 的 短语 。 相 关 研 究 已 经 表明 ， 将 短语 限制 为 语言 意义 上 的 短语 (句法 激发 的 词组 ,参见 句法 
类 别 ) 会 降低 翻译 质量 。 
基于 短语 的 翻译 工作 原理 与 基于 词 的 翻译 类 似 , 只 是 它 使 用 语言 的 短语 作为 翻译 的 最 小 单位 而 
不 是 单个 词 。 这 是 一 种 更 明智 的 方法 ， 因 为 它 可 以 更 轻松 地 对 词 之 间 的 一 对 多 、 多 对 一 或 多 对 多 关 
系 进行 建 模 。 基 于 短语 翻译 的 主要 目标 是 学 习 服从 某 一 概率 分 布 的 短语 翻译 模型 ， 该 概率 分 布 由 给 
定 源 短 语 的 不 同 候选 目标 短语 产生 。 基 于 短语 的 翻译 的 主要 目标 是 学 习 包 含 给 定 源 短语 的 不 同 候选 
目标 短语 的 概率 分 布 的 短语 翻译 模型 。 可 以 想象 , 这 种 方法 不 仅 涉及 需要 维护 由 两 种 语言 中 各 类 短 
语 产 生 的 巨大 数据 库 , 还 需要 执行 短语 的 重新 排序 , 因为 在 一 种 语言 的 句子 和 另 一 种 语言 之 间 没有 
词 的 单调 排序 。 如 果 词 在 语言 之 间 单 调 排序 ， 则 词 映射 之 间 不 应 存在 交叉 。 
尽管 如 此 ， 该 方法 仍然 存在 解码 过 程 〈 找 到 给 定 源 短语 的 最 佳 目标 短语 ) 非常 昂贵 的 局 限 性 ， 
这 是 由 短语 数据 库 的 大 小 及 通常 包含 多 个 目标 语言 短语 的 源 短语 引起 的 。 为 了 减轻 这 些 负 担 , 基于 
句法 的 翻译 便 出 现 了 。 


11.3.4 ”基于 句法 的 翻译 


基于 句法 的 翻译 是 基于 翻译 句法 单元 的 思想 , 而 不 是 基于 单个 词 或 词 串 (如 在 基于 短语 的 机 器 
翻译 中 ) ， 即 解析 句子 /表达 的 树 形 结构 。 基 于 句法 的 翻译 的 思想 在 机 器 翻译 中 其 实 “ 历 史 悠久 ”， 
直到 20 世纪 90 年 代 出 现 强大 的 随机 分 析 器 后 ， 基 于 统计 的 机 器 翻译 才 开始 兴起 。 基 于 句法 的 翻译 
这 种 方法 的 示例 包括 基于 DOP 的 机 器 翻译 及 最 近 的 同步 上 下 文 无 关 语 法 的 机 器 翻译 。 

在 基于 句法 的 翻译 中 ， 源 语句 由 句法 树 表示 。 这 里 简要 给 出 一 个 示例 ， 如 图 11-8 所 示 ，NP 表 
示 名 词 短 语 ，VP egen S 表示 句子 。 接 着 ， 在 重新 排序 阶段 ， 依 据 目标 语言 对 树 节点 进 
行 重新 排序 ， 以 改变 主语 、 谓 语 和 宾语 的 顺序 。 这 是 因为 句子 结构 可 以 根据 语言 而 变化 (在 英语 中 
是 主 - 谓 - 宾 ， Re 。 重 新 排序 是 由 R- 表 来 决定 的 ， 该 表 包 含 树 节点 被 改变 为 


2 
A 了 


The cat sat on the mat 
图 11-8 一 个 句子 的 句法 树 


然后 ,进入 插入 阶段 。 在 插入 阶段 ,我 们 随机 地 将 一 个 词 插入 到 树 的 每 个 节点 中 (假设 存在 不 
可 见 的 NULL 词 ， 并 且 它 在 树 的 随机 位 置 处 生成 目标 词 ) ， 插 入 词 的 概率 由 NN- 表 决定 ， 该 表 是 包 
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含 特定 词 插入 树 中 概率 的 表 。 
最 后 ， 是 翻译 阶段 ， 其 中 每 个 叶 节 点 以 逐 词 方式 翻译 为 目标 词 ， 从 句法 树 中 读 出 翻译 的 句子 ， 
以 构造 目标 语句 。 


11.3.5 “基于 分 层 短 语 的 翻译 


基于 分 层 短语 的 翻译 结合 了 基于 短语 和 基于 句法 两 类 翻译 方法 的 优势 , 使 用 同步 的 无 上 下 文 语 
法 规则 。 语 法 可 以 通过 扩展 基于 短语 的 翻译 方法 来 构建 ， 而 不 需要 参考 语言 驱动 的 句法 成 分 ， 这 个 
想法 最 初 是 在 Chiang 的 Hiero 系统 (2005) 中 引入 的 。 


11.3.6 ”统计 机 器 翻译 的 优势 与 不 足 


统计 机 器 翻译 的 优势 : 

e ”更 有 效 地 利用 人 力 和 数据 资源 。 

o 在 机 器 可 读 格式 和 更 多 单 语 数据 中 有 许多 平行 语料库 。 

不 足 : 

e 一般 来 说 ， 统 计 机 器 翻译 (SMT) 系统 不 适合 任何 特定 的 语言 对 。 

e ”基于 规则 的 翻译 系统 需要 人 工 开发 语言 规则 ， 会 带 来 很 高 的 人 工 成 本 ， 而 且 这 些 语言 规 
则 通常 不 能 在 其 他 语言 中 通用 。 


11.4 ”神经 网 络 机 器 翻译 


关于 神经 网 络 机 器 翻译 (Neural Machine Translation, NMT) 的 概念 , 我 们 在 开头 部 分 已 经 给 出 ， 
这 里 不 再 进行 解读 。 


11.4.1 发展 背 景 


在 二 十 世纪 八 十 年 代 和 九 十 年 代 的 最 后 一 波 神 经 网 络 研究 中 ,机 器 翻译 其 实 已 经 进入 研究 人 员 
(Waibel 等 ，1991) 探索 的 视野 之 内 。 事 实 上 ，Forcada 和 Neco (1997) 及 Castaño 等 人 提出 的 模 
型 (1997) 与 目前 的 主流 神经 网 络 机 器 翻译 方法 类 似 。 遗憾 的 是 ， 这 些 模 型 都 没有 经 过 足够 大 的 数 
据 样 本 训练 , 更 没有 产生 过 任何 有 价值 的 结果 。 由 于 所 涉及 的 计算 复杂 性 远 远 超过 那个 时 代 的 计算 
能 力 ， 因 此 这 个 想法 被 弃置 了 将 近 二 十 年 。 

在 此 起 伏 期 间 ， 诸 如 基于 短语 的 统计 机 器 翻译 等 数据 驱动 方法 从 默默 无 闻 上 升 到 占 主导 地 位 ， 
并 使 机 器 翻译 成 为 许多 应 用 的 有 用 工具 ， 从 信息 提供 到 提升 专业 翻译 人 员 的 翻译 水 平等 。 

机 器 翻译 中 神经 网 络 方法 的 现代 复兴 得 益 于 将 神经 网 络 语言 模型 集成 到 传统 的 统计 机 器 翻译 
RAH. WXL (Schwenk) (2007) 的 开创 性 工作 显示 了 在 公众 评论 应 用 中 的 巨大 改进 。 这 些 想 
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法 之 所 以 慢 慢 被 采用 ， 主 要 是 由 于 计算 方面 的 考虑 。 使 用 GPU 进行 训练 也 给 许多 研究 小 组 带 来 了 
新 的 挑战 ， 因 为 他 们 缺乏 这 样 的 硬件 或 开发 经 验 。 

除了 在 语言 模型 中 使 用 之 外 , 神经 网 络 方法 还 渗透 到 传统 统计 机 器 翻译 的 其 他 组 件 中 , 例如 提 
供 额 外 的 分 数 或 扩展 翻译 表 (Schwenk, 2012; Lu 等 ，2014) 、 重 新 排序 (Kanouchi 等 ，2016; 
Li 4, 2014) 以 及 预 排 序 模型 (de Gispert 等 人 ，2015) 等 。 德 夫 林 (Devlin) 等 人 的 联合 翻译 和 
语言 模型 (2014) 是 具有 深远 影响 的 ， 因 为 它 在 竞争 非常 激烈 的 统计 机 器 翻译 系统 上 显示 出 翻译 质 
量 的 很 大 改进 。 

由 于 越 来 越 多 的 研究 集中 在 纯 神 经 网 络 机 器 翻译 领域 , 因此 导致 统计 方法 基本 上 处 于 搁置 状态 。 
早期 的 方法 是 使 用 卷 积 模型 (Kalchbrenner 和 Blunsom, 2013) 和 序列 到 序列 模型 〈Sutskever 等 ， 
2014; Cho 等 ，2014) ， 这 些 能 够 为 短 名 产生 合理 的 翻译 ， 但 是 随 着 句子 长 度 的 增加 翻译 结果 就 
会 变 得 分 崩 离 析 。 而 注意 力 机 制 的 加 入 最 终 产 生 了 具有 竞争 力 的 结果 (Bahdanau 等 ，2015; Jean 
等 ，2015) 。 随 着 对 目标 单 语种 数据 的 字 节 及 对 编码 和 回 译 等 进一步 的 细 化 ， 神 经 网 络 机 器 翻译 成 
为 新 的 研究 领域 。 

最 近 几 年 ,机 器 翻译 的 整个 研究 都 是 围绕 神经 网 络 领 域 开 展 的 , 而 一 些 迹象 也 表明 了 这 种 变化 : 
在 机 器 翻译 会 议 (Conference on Machine Translation, WMT) 上 的 机 器 翻译 分 享 部 分 ，2015 年 只 
提交 了 一 个 纯 神经 网 络 机 器 翻译 系统 方面 的 内 容 ; 而 2017 年 几乎 提交 的 都 是 关于 神经 网 络 机 器 翻 
译 系统 方面 的 内 容 ， 神 经 网 络 方法 在 传统 机 器 翻译 中 显示 出 很 强 的 竞争 优势 。 

如 图 11-9 所 示 为 统计 机 器 翻译 系统 与 神经 网 络 机 器 翻译 系统 数量 的 对 比 ，2016 年 的 结果 来 自 
Sennrich 和 其 他 人 的 论文 《Edinburgh Neural Machine Translation Systems for WMT 16》 (Association 
for Computational Linguistics, Proceedings of the First Conference on Machine Translation, 2016 年 8 
H: 371-3760 ， 以 及 威廉 姆 斯 等 人 的 论文 《Edinburgh's Statistical Machine Translation Systems for 
WMTI6) (Association for Computational Linguistics, Proceedings of the First Conference on Machine 
Translation, 2016 年 8 H: 399-410) . 
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图 11-9 统计 机 器 翻译 系统 与 神经 网 络 机 器 翻译 系统 数量 的 对 比 


我 们 看 到 神经 网 络 机 器 翻译 CNMT) 系统 的 数量 在 短 短 几 年 内 已 经 超越 了 统计 机 器 翻译 (SMT) 
系统 的 数量 。 接 下 来 我 们 将 详细 讨论 神经 网 络 机 器 翻译 系统 的 结构 。 
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11.4.2 ”神经 网 络 机 器 翻译 的 特性 
神经 网 络 机 器 翻译 是 一 种 机 器 翻译 方法 , 它 使 用 大 型 人 工 神经 网 络 来 预测 词 序列 的 可 能 性 , 通 
常 在 单个 集成 模型 中 对 整个 句子 进行 建 模 。 
另外 ， 与 传统 机 器 翻译 系统 不 同 ， 神 经 网 络 翻译 模型 的 所 有 部 分 都 是 联合 训练 〈 端 到 端 ) 以 最 
大 化 翻译 性 能 。 
11.4.3 ”通过 例子 来 认识 神经 网 络 机 器 翻译 (NMT) 模型 的 结构 


首先 ， 我 们 来 了 解 一 下 神经 网 络 机 器 翻译 NMT) 系统 设计 的 样子 。 假 如 你 的 英语 和 德语 水 
平 非常 好 ， 公 司 要 求 你 将 以 下 德语 句子 翻译 成 英语 句子 : 


Ich ging nach Hause. 

这 个 句子 被 翻译 成 如 下 句子 : 

I went home. 

尽管 对 于 两 种 语言 都 非常 流利 的 专业 翻译 人 员 来 讲 , 翻译 起 来 也 就 需要 花 几 秒 钟 的 时 间 , 但 是 
翻译 的 流程 是 一 样 都 不 能 少 的 。 首 先 阅读 德语 句子 ， 然 后 创建 一 个 关于 该 句子 代表 或 暗示 的 意思 或 
概念 ， 最 后 将 句子 翻译 成 英语 。 同 样 的 思路 也 被 用 来 构建 神经 网 络 机 器 翻译 系统 〈 见 图 11-10) o 
即 编码 器 读 取 源 句 (阅读 德语 句子 )， 然 后 编码 器 输出 上 下 文 向 量 (对 应 于 阅读 句子 后 所 想象 的 意 
思 或 概念 ) ， 最 后 解码 器 接收 上 下 文 向 量 并 以 英语 输出 翻译 句子 。 


Ich ging nach Hause 


Source Sentence Target Sentence 


图 11-10 神经 网 络 机 器 翻译 系统 的 概念 架构 图 


11.4.4 ”神经 网 络 机 器 翻译 (NMT) 模型 结构 详解 


现在 我 们 将 详细 地 研究 神经 网 络 机 器 翻译 的 架构 ， 这 里 讨论 的 序列 到 序列 方法 是 由 Sutskever、 
Vinyals 和 Le 在 他 们 的 论文 《Sequence to Sequence Learning with Neural Networks, Proceedings of the 
27th International Conference on Neural Information Processing Systems - Volume 2: 3104-3112) "d 
出 的 。 从 图 11-10 可 以 看 出 ， 神 经 网 络 机 器 翻译 架构 中 有 两 个 主要 组 件 ， 分 别 被 称 为 编码 器 和 解码 
器 。 换 名 话说， 神经 网 络 机 器 翻译 可 以 被 视 为 编码 器 -解码 器 架构 。 编 码 器 先 将 句子 从 给 定 的 源 语 
言 转换 为 一 个 “想法 ”， 解 码 器 再 将 这 个 “想法 ”解码 或 翻译 成 目标 语言 。 这 与 我 们 曾经 讨论 过 的 
语 际 机 器 翻译 方法 有 一 些 共 同 之 处 ， 如 图 11-11 所 示 ， 下 文 向 量 的 左 侧 表示 编码 器 (其 逐 字 地 获取 
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源 语句 以 训练 时 间 序列 模型 )， 右 侧 表示 解码 器 ， 其 逐 字 输出 〈 同 时 使 用 前 一 个 词 作为 当前 输入 ) 
源 语 句 的 相应 翻译 结果 。 我 们 还 将 使 用 词 嵌 入 层 (用 于 源 语 言 和 目标 语言 ) 来 提供 词 向 量 作为 模型 
的 输入 。 


| went home </s> 


Context | Target Embedding Layet 


ich ging nach Hause <s> Vector <s> | went home 
图 11-11 源 语言 和 目标 语言 句子 展开 的 示意 图 
对 神经 网 络 机 器 翻译 的 整体 架构 有 基本 了 解 之 后 , 我 们 来 正式 定义 一 下 神经 网 络 机 器 翻译 系统 
的 目标 ,神经 网 络 机 器 翻译 系统 的 最 终 目标 是 在 给 定 源 语句 xs 及 其 相应 的 yr 的 情况 下 的 最 大 化 对 数 
似 然 性 ， 即 : 


N 
1 
52. logP(yr | xs) 


这 里 ，N 是 训练 数据 中 源 语言 和 目标 语言 句子 的 元 组 数目 。 
在 推理 期 间 ， 对 于 给 定 的 源 语言 句子 xywyer 而 言 ， 我 们 通过 以 下 式 子 得 到 目标 语言 句子 yyest。 


M 
yb**t Cargmaxoey,POrr |x") = argmaxgey,) Il» (TS 
i-1 
这 里 ，yz 是 备 选 句子 的 集合 。 
在 研究 神经 网 络 机 器 翻译 (NMT) 架构 的 每 个 部 分 之 前 ， 先 定义 一 些 数学 符号 以 便 更 好 地 理 
解 神经 网 络 机 器 翻译 系统 。 
将 LSTM (长 短期 记忆 网 络 ) 的 编码 器 定义 为 LSTMenc， LSTM 的 解码 器 定义 为 LSTMaec; 在 
时 间 步 * 上 ， 将 LSTM 的 细胞 状态 定义 为 cc， 外 部 隐藏 状态 定义 为 心 。 因 此 ， 将 x* 输 入 LSTM 会 产 
"EcL Fhe: 


Ct, ht = LSTM (xi | X4, X2, .., X(t-1)) 
ME, RIKERE IRAE, Rid. E FERAE A o 
1. 词 谋 入 层 


在 这 里 我 们 使 用 两 个 词 嵌入 层 : Embs 作 为 源 语 言 ; Embz 作 为 目标 语言 我们 将 获得 Emb(xt)， 
而 不 是 将 x* 直 接 输 入 给 LSTM。 但 是 ， 为 了 避免 不 必要 地 增加 符号 ， 假 设 xt= EmbQa)« 
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2. 编码 器 


如 前 所 述 ,编码 器 负责 生成 源 语言 句子 转换 为 “想法 ”的 向 量 , 或 者 说 是 生成 表示 源 语言 含义 
的 上 下 文 向 量 。 为 此 ， 我 们 将 使 用 到 LSTM 网 络 ， 如 图 11-12 所 示 。 


图 11-12 LSTM 单个 细胞 的 示意 图 
编码 器 用 co 和 ho 初始 化 为 零 向 量 。 编 码 器 将 一 系列 词 xs = (x$. x$. ce ，x$} 作 为 输入 并 计算 
上 下 文 向 量 v = {v。，vh}， 其 中 是 最 终 的 细胞 状态 ，vh 是 在 处 理 序列 的 最 终 元 素 x4 之 后 获得 的 最 
终 外 部 隐藏 状态 xr。 我 们 将 此 表示 如 下 : 
6j, hy = ESTM XE x, x2... 079) 
Ve = CL 
Va =h, 
3. 上 下 文 向 量 
上 下 文 向 量 本 身 的 概念 就 是 简明 地 表示 源 语言 的 句子 内 容 , 而 且 与 如 何 初始 化 编码 器 状态 (用 
零 初始 化 ) 相 比 ， 上 下 文 向 量 实际 上 成 为 了 解码 器 LSTM 的 初始 状态 。 也 就 是 说 ，LSTM 解码 器 
不 以 初始 状态 为 零 开始 ， 而 是 以 上 下 文 向 量 作为 其 初始 状态 。 


4. 解码 器 


解码 器 负责 将 上 下 文 向 量 解码 为 符合 期 望 的 翻译 内 容 。 我 们 的 解码 器 也 是 LSTM 网 络 ， 尽 管 
编码 器 和 解码 器 可 以 共享 同一 组 权重 值 ,但 通常 情况 下 最 好 让 编码 器 和 解码 器 使 用 两 个 不 同 的 网 络 。 
这 样 就 增加 了 模型 中 的 参数 数量 ， 使 我 们 能 够 更 有 效 地 学 习 翻译 。 

首先 ， 解 码 器 的 状态 使 用 上 下 文 向 量 初始 化 ，v = {Ve Vn} WFR: 


XE, Cos ho € LSTMygec。 
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这 个 GO 是 连接 编码 器 和 解码 器 的 关键 链接 ， 以 形成 端 到 端的 计算 链 ， 而 且 这 是 解码 器 关于 
源 语句 层面 的 唯一 信息 。 
然后 ， 计 算 待 翻 译 句 子 的 第 m 个 预测 ， 如 下 所 示 : 
Cm hm = LSTMas (ye? 1v, yt y$, me RA] 


Ym — softmax(Wsortmax X hm 十 bsoftmax) 


图 11-13 显示 了 完整 的 神经 网 络 机 器 翻译 系统 , 其 中 详细 说 明了 编码 器 中 的 LSTM 细胞 如 何 连 
接 到 解码 器 中 的 LSTM 细胞 ， 以 及 softmax 层 如 何 用 于 输出 预测 。 


解码 器 (Decoder) 


编码 器 (Encoder) 


前 一 个 单词 成 为 下 一 个 预测 单词 的 输入 〔 例 如， 解码 各 
中 的 输入 "1" 给 定时 ， 将 产生 单调 "went” 


11-13 基于 LSTM 的 编码 器 架构 


11.5 ”神经 网 络 机 器 翻译 (NMT) 系统 的 前 期 准备 工作 


本 节 我 们 将 讨论 有 关 神 经 网 络 机 器 翻译 (NMT) 系统 训练 和 预测 数据 方面 的 具体 准备 过 程 。 
首先 ， 讨 论 如 何 准备 训练 数据 〈 源 语句 和 目标 语句 对 ) 来 训练 神经 网 络 机 器 翻译 系统 ， 然 后 输入 给 
定 的 源 语句 以 产生 该 句子 的 翻译 内 容 。 


11.5.1 训练 阶段 


训练 数据 由 成 对 的 源 语句 和 对 应 翻译 的 目标 语言 所 组 成 。 类 似 下 面 这 样 的 形式 : 
© (Ich ging nach Hause , I went home) 


€ (Sie hat in der Schule gewartet , She was waiting at school) 


我 们 的 数据 集中 有 N 对 这 种 形式 的 句子 对 。 如 果 训练 一 个 非常 好 的 翻译 模型 ， 则 N 需要 以 数 
百 万 规模 计 。 随 着 训练 数据 的 增加 ， 也 意味 着 训练 用 时 的 增加 。 
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接 下 来 ， 我 们 将 介绍 两 个 特殊 标记 : <s> 和 </ s>。<s> 标 记 表 示 句 子 的 开头 ， 而 </ s> 表 示 句 子 
的 结尾 。 现 在 ， 上 面 的 示例 看 起 来 是 这 样 的 : 


€ (<s> Ich ging nach Hause </s> , <s> I went home </s>) 
€ (<s> Sie hat in der Schule gewartet </S> , <s> She was waiting at school </s>) 


最 后 ， 我 们 将 使 用 </ s> 标 记 填 充 句 子 ， 使 得 源 语句 具有 固定 长 度 ， 比 如 其 长 度 为 L; 目标 语句 
也 需要 有 固定 长 度 ， 比 如 其 固定 长 度 为 M。 这 里 ，L 和 M 不 需要 相等 。 此 步骤 导致 以 下 结果 : 


€ (<s>Ich ging nach Hause </s></s></s> , <s> I went home </s></s></s>) 

€ (<s> Sie hat in der Schule gewartet </s> , <s> She was waiting at school </s>) 

如 果 句 子 的 长 度 大 于 工 或 M， 则 将 其 截 短 为 适合 的 长 度 ， 然 后 句子 通过 一 个 标记 器 来 获取 标 
记 化 的 词 。 在 这 里 ， 我 们 忽略 了 第 二 个 元 组 〈 一 对 句子 ) ， 因 为 两 个 元 组 的 处 理 类 似 。 


([ *«sz" , "Ich" ; "ging" y "nach" ; "Hause" , e/g 'efs»", Tefal sy. pest ; 


UP! 4, "went" ,'home' , 'c/s»" , 'efs»" , "c/s»"]) 


需要 说 明 的 是 ， 将 句子 固定 长 度 并 不 是 必须 的 ， 因 为 LSTM 能 够 处 理 动态 序列 大 小 。 将 句子 
固定 长 度 会 有 助 于 我 们 对 句子 进行 批 处 理 ， 而 不 用 逐个 处 理 。 


11.5.2” 反 转 源 语句 


下 面 ， 我 们 将 对 源 语句 采取 一 些 特殊 的 策略 。 例 如 ， 在 源 语言 中 有 句子 ABC， 我 们 希望 将 其 
翻译 成 目标 语言 中 的 aByp， 首 先 反 转 源 语句 ， 使 句子 ABC 被 视 为 CBA， 这 意味 着 为 了 将 ABC ffl 
译 为 aByp， 我 们 需要 给 出 CBA。 这 显著 改善 了 模型 的 性 能 ， 特 别 是 当 源 语言 和 目标 语言 共享 相同 
的 句子 结构 时 〈 如 主 - 谓 - 宾 ) 。 

让 我 们 试 着 去 理解 这 样 做 为 什么 会 有 所 帮助 , 主要 是 它 有 助 于 在 编码 器 和 解码 器 之 问 建立 良好 
的 通信 。 从 前 面 的 例子 开始 ， 将 源 语句 和 目标 语句 连接 起 来 : 

ABCaßyo 

如 果 计 算 从 A 到 a 或 B 到 B 的 距离 ( 即 分 隔 两 个 词 的 词 数 ) ， 那 么 它们 将 是 相同 的 。 但 是 ， 
当 反 转 源 语句 时 ， 请 考虑 这 一 点 ， 如 下 所 示 : 

CBAofyo 


这 里 ，A 非常 接近 a， 依 此 类 推 。 另外， 要 建立 良好 的 翻译 ， 一 开始 就 建立 良好 的 沟通 非常 重 
要 ， 这 可 能 有 助 于 神经 网 络 机 器 翻译 系统 通过 这 个 简单 的 策略 来 改善 其 性 能 。 
现在 ， 我 们 的 数据 集 变 为 : 


人 


和 


接 下 来 ， 对 于 学 习 的 词 向 量 : Emb. 和 Embr， 我 们 用 相应 的 词 向 量 替 换 每 个 词 。 
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另 一 个 好 处 是 我 们 的 源 语句 以 <s> 标 记 结束 ， 目 标语 句 以 <s> 标 记 开 头 ， 因 此 在 训练 期 间 ， 我 
们 不 必 再 单独 做 任何 特殊 的 处 理 来 建立 源 语句 结尾 和 目标 语句 开头 之 间 的 关联 。 

值得 注意 的 是 , 反 转 源 语句 步 又 只 是 相对 于 主观 预 处 理 步 又 而 言 , 对 于 某 些 翻译 任务 可 能 不 是 
必需 的 。 例 如 ， 如 果 翻 译 任务 是 从 日 语 (通常 是 主语 -宾语 -动词 格式 ) 翻译 成 菲律宾 语 (通常 是 动 
词 -主语 -宾语 格式 ) ， 那 么 反 转 源 语句 可 能 会 造成 “伤害 ”而 不 是 帮助 。 


11.5.3 ”测试 阶段 


在 测试 时 ， 我 们 只 有 源 语言 句子 ， 没 有 目标 语句 ， 我 们 像 在 训练 阶段 所 做 的 那样 准备 源 数据 。 接 
下 来 ， 通 过 将 解码 器 的 最 后 一 个 预测 词 作为 下 一 个 输入 进行 反馈 ， 以 逐 字 翻 译 并 获得 对 应 输出 。 首 先 
将 <s> 标 记 送 到 解码 器 来 触发 预测 过 程 。 下 面 ， 我 们 将 讨论 给 定 源 语句 的 具体 训练 过 程 和 预测 过 程 。 

1. 训练 神经 网 络 机 器 翻译 

现在 我 们 已 经 定义 了 神经 网 络 机 器 翻译 架构 和 预 处 理 的 训练 数据 , 训练 模型 就 相对 简单 了 。 在 
这 里 ， 我 们 将 定义 和 给 出 〈 见 图 11-14). 用 于 训练 的 详细 过 程 。 


yi y) yè y" Qe NM: 


Predicted 
Target Words 


xt Wl sse l=<s> <s> $5 gma 


图 11-14 神经 网 络 机 器 翻译 系统 训练 过 程 


A) 如 前 所 述 ， 预 处 理 项 : (xs,yr)。 

(2) 将 xs 提供 给 LSTM。,e 并 计算 条 xs 件 下 的 vo 

G) 用 Vv 初始 化 LSTMaec。 

CA) 利用 来 自 LSTMaec 的 输入 句子 xs 预测 (六 7 = OO O (了) 和 外。 其 中 目标 词汇 表 
Vv 中 的 第 m 个 词 的 预测 计算 如 下 : 


(9)T = softmax(Wsortmaxh" + bsofemax) 


wP = argmax umer P (OE Vv O O 01. 98" D) 
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这 里 w 严 代表 m 位 置 的 最 佳 目标 词 。 

O 计算 损失 : 第 m 位 置 的 预测 词 (了 ) 罗 和 同一 位 置 的 实际 词 yP? 之 间 的 分 类 交叉 炉 。 

(6) 优化 LSTMence、LSTMaec 和 softmax 层 的 损失 。 

2. 利用 神经 网 络 机 器 翻译 推理 

推理 与 神经 网 络 机 器 翻译 的 训练 过 程 略 有 不 同 〈 见 图 11-15) 。 由 于 在 推理 时 没有 目标 语句 ， 
因此 我 们 需要 一 种 在 编码 阶段 结束 时 触发 解码 器 的 方法 。 这 与 我 们 在 第 9 章 “利用 LSTM 实现 图 
像 字幕 自动 生成 ”中 所 做 的 图 像 主 题 项 目 有 相似 之 处 , 在 那个 项 目 中 , 将 <SOS> 标 记 附 加 到 主题 的 
开头 ， 以 表示 主题 的 开始 ，<EOS> 表 示 主 题 的 结束 。 

我 们 可 以 通过 将 <s> 作 为 解码 器 的 第 一 个 输入 ， 然 后 将 预测 作为 输出 ， 并 把 最 后 一 个 预测 作为 
下 一 个 输入 提供 给 NMT。 

(OD 如 前 所 述 ， 预 处 理 项 ，xs。 

(2) 将 xs 推送 给 LSTMenc 并 计算 xs 条 件 下 的 vo 

G) H v 初始 化 LSTMauec。 

(4) 对 于 初始 预测 步 又， 通过 调整 (9)# = <s> 和 v 的 预测 来 预测 (9 。 

C6) 对 于 后 续 时 间 步 长 ， 当 (9) 经 </ s> 时 ， 通 过 调整 {(J) 囊 (6 79, OE, a <>A v 
的 预测 来 预测 (Pon+3 。 


Qe Embedding Layer ; Target Embedding Layer | 


x xci tU el=<s> «s» "E aus M1 


11-15. ”利用 神经 网 络 机 器 翻译 进行 推理 


11.6 BLEU 评分 一 一 评估 机 器 翻译 系统 


11.6.1 BLEU 简 述 


BLEU (Bilingual Evaluation Understudy， 双 语 评估 基础 ) 是 用 于 评估 从 一 种 自然 语言 被 机 器 翻 
译 到 另 一 种 自然 语言 的 文本 质量 的 算法 。 质 量 被 认为 是 机 器 输出 与 人 类 输出 之 间 的 一 致 性 关系 反映 : 
“机 器 翻译 越 接近 专业 人 工 翻译 , 质量 就 越 好 ”一 一 这 是 BLEU 背后 的 核心 理念 。BLEU 是 首 批 声 

称 与 人 工 质量 判断 高 度 相关 的 指标 之 一 ， 并 且 仍 然 是 最 流行 的 自动 化 和 廉价 评估 指标 之 一 。 
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通过 与 一 组 高 质量 的 参考 译文 进行 比较 , 计算 各 个 翻译 片段 (通常 是 句子 ) 的 得 分 ， 然 后 在 整 
个 语料库 上 对 这 些 得 分 进行 平均 , 以 便 对 整体 翻译 质量 进行 评估 ,可 理解 性 或 语法 正确 性 未 被 考虑 。 

BLEU 的 输出 始终 是 介 于 0 和 1 之 间 ， 该 值 表示 候选 文本 与 参考 文本 的 相似 程度 ， 得 分 越 接近 
1 表示 候选 文本 与 参考 文本 的 相似 度 越 高 。 很 少 有 人 工 翻译 得 分 会 达到 1， 因 为 这 表明 候选 项 与 其 
中 一 个 参考 译文 相同 。 由 于 这 个 原因 , 其 实 翻译 评分 是 不 需要 达到 1 分 的 。 因 为 有 更 多 的 机 会 匹配 ， 
添加 额外 的 参考 翻译 将 增加 BLEU 得 分 。 笔 者 也 认为 ， 对 于 某 些 语言 翻译 而 言 ， 即 使 BLEU 得 分 
为 1， 也 很 难说 本 次 翻译 一 定 是 质量 最 高 的 ， 尤 其 是 在 一 些 哲学 、 心 理学 领域 的 翻译 ， 因 为 语言 类 
的 翻译 很 难 通 过 量化 来 寻找 最 佳 。 但 是 ,既然 我 们 通过 人 工 智 能 算法 的 角度 去 实现 ， 量化 工作 肯定 
是 需要 的 ， 因 而 以 参考 文本 为 最 佳 翻译 文本 作为 标准 是 非常 有 必要 的 。 


11.6.2 BLEU 度量 


一 般 情 况 下 ， 一 个 给 定 的 源 语言 句子 会 存在 很 多 个 “完美 ”的 翻译 候选 句子 。 有 时 候 ， 即 使 我 
们 使 用 相同 的 词 ， 这些 对 应 翻译 的 词 选择 或 词 顺 序 也 可 能 是 不 同 的 。 但 是 , 我 们 人 类 可 以 很 清晰 地 
识别 好 的 翻译 和 差 的 翻译 。 例 如 ， 下 面 给 出 了 两 个 中 文 源 语句 的 英文 候选 翻译 。 

【示例 11 


Candidate 1: It is a guide to action which ensures that the military always obeys 

the commands of the party. 

Candidate 2: 

It is to insure the troops forever hearing the activity guidebook that party 
direct. 


虽然 它们 似乎 有 同一 个 主语 , 但 是 它们 的 翻译 质量 却 明显 不 同 。 为 了 比较 , 我 们 提供 以 下 三 个 
相同 源 语句 的 人 工 翻译 。 


Reference 1: It is a guide to action that ensures that the military will forever 
heed Party commands. 

Reference 2: 

It is the guiding principle which guarantees the military forces always being 
under the command of the Party. 

Reference 3: It is the practical guide for the army always to heed the directions 
of the party. 


这 里 , 我 们 可 以 很 清楚 地 看 到 ,候选 句子 1 与 候选 句子 2 相 比 , 在 和 上 面 这 三 个 参考 译文 句子 
共享 单词 和 短语 数量 方面 更 占 优势 。 对 于 共享 单词 或 短语 方面 的 量化 说 明 , 我 们 会 在 后 面 单独 进行 
说 明 。 接 着 , 我 们 继续 给 出 候选 句子 与 各 个 参考 译文 的 具体 共享 内 容 (按照 候选 句子 1 的 单词 或 短 
语 的 顺序 逐个 列 出 ) : 候选 句子 1 与 参考 译文 1 共享 “It is a guide to action”， 与 参考 译文 2 共享 

“which”, 与 参考 译文 共享 “ensures that the military", 与 参考 译文 2 .参考 译文 3 同时 共享 “always”， 
与 参考 译文 1 共享 “commands”， 与 参考 译文 2 共享 “ofthe party”。 注 意 ， 这 里 提 到 的 共享 单词 
或 短语 是 不 区 分 大 小 写 的 。 相 比 之 下 ， 候 选 句子 2 则 表现 出 更 少 的 匹配 ， 应 用 效果 不 佳 。 
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显然 ， 利 用 程序 我 们 可 以 简单 地 比较 每 个 候选 翻译 和 参考 翻译 之 间 的 n-gram 匹配 ， 来 对 候选 
句子 1 和 候选 句子 2 进行 打分 ， 且 候选 句子 1 的 得 分 高 于 候选 句子 2 的 得 分 。 

BLEU 度量 工具 的 主要 任务 是 对 候选 翻译 的 N 元 (n-gram) 与 参考 翻译 的 N 元 (n-gram) 进 
行 比较 并 计算 匹配 数 ， 而 这 些 匹配 其 实 与 词 或 短语 在 句子 中 的 位 置 无 关 。 这 样 的 结果 是 ,匹配 数量 
越 多 ， 就 说 明 其 翻译 效果 越 好 。 为 了 简单 起 见 ， 我 们 先 从 Unigram (一 元 模型 或 单个 词 模型 ) 的 匹 
配 计算 情况 入 手 。 

1. 精确 度 

为 了 方便 介绍 计算 精确 度 ， 这 里 以 Unigram 为 例 ， 只 需要 计算 在 任何 参考 翻译 中 出 现 的 候选 
翻译 词 〈 当 然 是 一 元 的 ) 数量 ， 然 后 除 以 候选 翻译 中 的 词 总 数 即 可 ， 其 表达 式 如 下 : 
FQunigrame{candidatey) IsSFoundInRef (unigram) 

|Candidate| 

我 们 把 上 式 换 一 种 更 加 数学 化 的 式 子 来 表示 : P = as 


Precision — 


这 里 , P 为 精确 度 ，m 为 候选 项 中 词 出 现在 参考 译文 中 的 个 数 ，wt 为 候选 项 中 词 的 个 数 。 
那么 我 们 结合 【示例 2】 来 看 一 下 候选 项 的 Unigram 精确 度 情况 。 
【示例 2】 


Candidate: the the the the the the the. 
Reference 1: The cat is on the mat. 


Reference 2: There is a cat on the mat. 


【示例 2】 中 候选 项 的 Unigram 精确 度 为 


一 m F 一 . 
a = 
虽然 上 面 候选 翻译 中 几乎 不 存在 具有 实际 意义 的 词 与 任 一 参考 译文 中 的 词 相同 , 但 是 这 个 得 分 


堪 称 完美 。 

通过 【示例 2】 中 精确 度 的 计算 情况 ， 我 们 可 以 发 现 ， 机 器 翻译 系统 存在 过 度 生成 “合理 的 ” 
词 的 可 能 性 ， 进 而 导致 没有 实际 意义 但 精确 度 却 很 高 的 候选 翻译 的 出 现 。 结 合 【示例 2】 给 出 的 情 
Bí. 问题 其 实 已 经 很 明显 了 : 在 识别 出 匹配 的 候选 词 后 ， 应 该 认定 相应 参考 词 已 经 被 用 尽 ， 否 则 就 
会 出 现 上 面 【 示 例 2】 中 候选 翻译 精确 度 看 起 来 非常 完美 但 实际 上 几乎 没有 任何 指导 意义 的 情况 。 
因此 , 我 们 需要 对 精确 度 做 进一步 的 修正 。 为 了 计算 这 一 点 , 首先 需要 计算 词 在 任何 一 个 参考 翻译 
中 出 现 的 最 大 次 数 ， 也 就 是 说 ， 对 于 候选 翻译 中 的 每 个 词 ， 在 任何 参考 翻译 中 都 需要 取 其 最 大 总 计 
数 mmax; 然后 用 参考 最 大 总 计数 来 裁剪 每 个 候选 词 的 总 数 ， 将 这 些 裁剪 的 计数 累加 ， 并 除 以 候选 
词 的 总 数 〈 未 裁 前 ) 。 具 体 可 以 用 下 面 的 式 子 来 表达 : 


Countcrip(word) 


1 
Tt 
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Countcrip(word) = Min(Count(word), MaxRef Count(word)] 


oE Count (word 
i P8 (word) 

这 里 ，Count(word) 对 应 于 m，MaxRefCount(word) 对 应 于 mmax,C € {Candidates}。 

下 面 结合 示例 的 情况 做 进一步 的 解释 。 

结合 【示例 2】 的 情况 做 进一步 解释 ， 单词 “the” 在 参考 译文 1 中 出 现 了 两 次 ， 在 参考 译文 2 
中 出 现 了 一 次 , 则 mmax 为 2. 对 于 候选 翻译 ,每 个 词 的 统计 数 mo 被 裁剪 到 该 词 的 最 大 计数 mmax 上。 
在 【示例 2】 中 ， 对 于 单词 “the” 而 言 ，mw=7，mmax= 2 ， 则 mw 被 裁剪 为 2， 以 此 类 推 ， 其 他 词 
的 裁剪 mo 也 是 如 此 。 然 后 ， 在 将 最 后 候选 翻译 中 不 同 词 对 应 的 mw 累加 求 和 后 ， 再 除 以 候选 翻译 中 
所 有 词 的 统计 数 。 那 么 ， 显 然 【 示 例 2】 中 候选 翻译 修改 后 的 Unigram 精确 度数 值 为 : 

2 


P=7 


在 【示例 11 中, 候选 句子 1 修正 后 的 Unigram 精确 度 达到 了 17/18; 而 候选 句子 2 则 为 8/14。 
同样 ，【 示 例 2】 中 修正 的 Unigram 精确 度 为 7， 远 低 于 修正 前 的 Unigram 精确 度 (为 77) 。 
对 于 任何 n 而 言 , 修正 后 的 n-gram 精确 度 计算 情况 类 似 ,需要 整理 所 有 候选 n-gram 计数 及 其 
对 应 的 最 大 参考 翻译 计数 。 将 候选 翻译 计数 裁 前 到 参考 翻译 最 大 值 (最 大 计数 ) 进行 求 和 ， 并 除 以 
候选 n-gram 的 总 数 。 在 【示例 1】 中 ， 候 选项 1 的 Bigram 〈 二 元 模型 或 双 词 模型 ) 修正 精确 度 达 
到 了 10/17， 而 翻译 质量 较 差 的 候选 项 2 的 修正 Bigram 精确 度 为 113。 而 在 【示例 2】 中 ， 候 选项 
的 Bigram 修正 精确 度 是 0， 这 个 结果 确实 让 我 们 感到 有 些 震 惊 。 
上 面 给 出 的 是 相对 简单 的 Unigram 和 Bigram 情况 下 的 精确 度 ， 而 对 于 N-gram 修正 后 的 精确 
度 而 言 ， 我 们 可 以 用 下 面 的 式 子 来 表达 ， 其 评分 情况 包含 了 翻译 的 两 个 方面 : 充分 性 和 流畅 性 。 其 
实 ， 若 我 们 使 用 与 参考 译文 相同 的 词 〈 一 元 模型 ) 的 翻译 ， 则 是 倾向 于 满足 翻译 质量 上 的 充分 性 ， 
而 N-gram 匹配 的 越 长 ， 则 翻译 质量 上 的 流畅 性 越 强 。 这 里 N 的 取 值 应 根据 具体 情况 而 定 ， 以 便 兼 
顾 翻 译 质量 的 充分 性 和 流畅 性 这 两 个 方面 。 
E Ycetcanaiaates) 1m -gramec Countatip (n — gram) 
È cre{Candidates} Ln_gramecr Countaip (n — gram") 


Pn 


11.6.3 BLEU 的 调整 和 惩罚 因子 


BLEU 评分 的 一 个 挑战 是 ， 它 们 倾向 于 支持 简短 的 翻译 句子 ， 即 使 使 用 修正 后 的 精确 度 ， 也 能 
产生 非常 高 的 评分 。 例 如 ， 这 里 我 们 给 出 上 述 相同 参考 译文 的 另 一 个 候选 翻译 。 
【示例 3】 


the cat 
那么 ， 该 候选 翻译 的 Unigram 修正 精确 度 为 : P =i+i= 1， 因 为 单词 “the” 和 单词 “cat” 
在 候选 翻译 中 均 出 现 过 一 次 ， 所 以 这 里 单词 总 数 为 2。 
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同样 ， 我 们 继续 下 去 ， 会 发 现 该 候选 翻译 的 Bigram 精确 度 也 是 1 。 为 了 解决 这 个 问题 ， 有 人 
指出 精确 度 要 与 召回 率 一 起 使 用 ， 那 么 本 示例 中 候选 翻译 的 Unigram 召回 率 就 是 3/6 或 7。 问题 
是 BLEU 会 考虑 多 个 参考 译文 , 每 个 参考 译文 都 可 以 选择 使 用 不 同 的 词 来 翻译 同一 个 词 源 。 另外 ， 
一 个 好 的 候选 翻译 只 会 选择 使 用 (召回) 这些 可 能 的 词 之 一 ， 而 不 是 全 部 。 实 际 上 ， 召 回 所 有 选择 
的 词 会 导致 翻译 效果 更 糟糕 。 

【示例 41 


Candidate always invariably perpetually do. 


Candidate always do. 
always do. 


Reference invariably do. 


H HHHH 


L 
2 
Reference 1: 
2 
3 


Reference perpetually do. 


我 们 可 以 发 现 , 第 一 个 候选 翻译 从 参考 译文 中 召回 更 多 的 单词 , 但 是 明显 比 第 二 个 候选 翻译 表 
现 的 差 。 因此， 在 所 有 参考 单词 集合 上 进行 简单 计算 召回 率 并 不 是 一 个 好 的 度量 标准 。 

为 了 解决 上 述 问题 ， 我 们 这 里 引入 了 简短 惩罚 (Brevity Penalty; BP 值 ) 。 设 r 为 参考 语料库 
的 总 长 度 ，e 为 翻译 语料库 的 总 长 度 ， 如 果 c<r， 则 应 用 简短 惩罚 ， 定 义 为 ed- 昌 。 在 多 个 参考 句子 
的 情况 下 , T 被 认为 是 长 度 最 接近 候选 句 长 度 的 相关 句子 的 长 度 总 和 。 在 2009 年 之 前 NIST 评估 所 
使 用 的 度量 标准 版 本 中 ， 就 使 用 了 最 短 的 参考 语句 。 简 短 惩罚 的 计算 方法 如 下 : 


11.0.4 BLEU 得 分 总 结 


接 下 来 ， 为 了 计算 BLEU 分 数 ， 我 们 将 首先 对 一 组 不 同 的 n(n=1,2,3,…,N) 值 计算 几 个 不 同 
的 修正 N-gram 精确 度 ， 然 后 计算 N-gram 精确 度 的 几何 平均 值 ， 具 体 公式 如 下 : 
N 


BLEU = BP - exp( ? wnlogpn) 
XE, ws ARTE N-gram 精确 度 pa 的 权重 值 。 在 默认 情况 下 ， 所 有 N-gram 的 值 都 使 用 相等 的 
权重 值 。 总 之 ，BLEU 计算 修正 N-gram 精确 度 ， 并 以 简单 惩罚 因子 惩罚 修正 的 N-gram 精确 度 ， 
该 修正 的 N-gram 精确 度 避 免 了 无 意义 句子 具有 潜在 的 高 精确 度 值 。 


11.7 ”完整 实现 神经 网 络 机 器 翻译 一 一 德语 到 英语 翻译 
现在 我 们 将 实现 一 个 真正 的 神经 网 络 机 器 翻译 (NMT) 系统， 这 里 使 用 原始 的 TensorFlow 操 


作 变 量 来 实现 神经 网 络 机 器 翻译 。 该 部 分 代码 存在 于 ch11/11 neural machine translation.ipynb 文件 
中 。 这 里 之 所 以 使 用 原始 的 TensorFlow 操作 变量 方法 ， 是 因为 一 旦 我 们 掌握 了 从 零 开 始 学 习 实 现 
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机 器 翻译 而 不 借助 于 任何 辅助 函数 ， 那 么 我 们 将 能 够 快速 学 习 诸如 序列 到 序列 Cseq2seq) 之 类 的 
库 。 另 外 ， 使 用 原始 TensorFlow 操作 变量 来 实现 序列 到 序列 模型 的 资源 其 实 很 少 ， 而 关于 如 何 使 
用 seq2seq 库 进 行 机 器 翻译 的 在 线 资源 却 非常 多 。 


11.7.1. 关于 样本 数据 


我 们 使 用 https://nlp.stanford.edu/projects/nmt/ 上 提供 的 英语 - 德语 句子 对 ， 上 面 有 大 约 450 万 
个 句子 对 可 用 。 由 于 考虑 计算 可 行 性 ， 我 们 仅 使 用 250 000 个 句子 对 。 词 汇 有 50000 个 常用 的 英语 
单词 和 50000 个 常见 的 德语 单词 ,而 在 词汇 表 中 未 找到 的 单词 将 被 替换 为 特殊 标记 <unk>。 在 这 里 ， 
我 们 将 列 出 在 数据 集中 存在 的 一 些 例句 : 


DE: Das Großunternehmen sieht sich einfach die Produkte des kleinen 
Unternehmens an und unterstellt so viele Patentverletzungen , wie es nur geht . 

EN: The large corporation will look at the products of the small company and 
bring up as many patent infringement assertions as possible . 

DE: In der ordentlichen Sitzung am 22. September 2008 befasste sich der 
Aufsichtsrat mit strategischen Themen aus den einzelnen Gescháftsbereichen wie der 
Positionierung des Kassamarktes im Wettbewerb mit auBerbórslichen 
Handelsplattformen , den Innovationen im Derivatesegment und verschiedenen 
Aktivitáten im Nachhandelsbereich 

EN: At the regular meeting on 22 September 2008 , the Supervisory Board dealt 
with strategic issues from the various business areas ,such as the positioning of 
the cash market in competition with OTC trading platforms , innovation in the 
derivatives segment and various post ##AT##-—##AT## trading activities . 


11.7.2” 预 处 理 数 据 


按照 代码 文件 中 的 操作 ， 下 载 了 训练 数据 (train.en 和 train.de) 后， 让 我 们 来 看 看 这 些 文件 中 
有 什么 内 容 。 接 着 ， 我 们 将 从 这 些 样本 数据 的 大 型 语料库 中 选择 250,000 个 句子 对 ， 同 时 从 训练 数 
据 中 收集 100 个 句子 作为 测试 数据 ,这 两 种 语言 的 词汇 表 可 以 在 vocab.50K.en.txt 和 vocab.50K.de.txt 
中 找到 。 

对 于 词 向 量 学 习 (如 果 单 独 执行 ) ， 反 转 句子 是 可 选 的 ， 因 为 反 转 句子 不 会 改变 给 定单 词 的 上 
下 文 , 所 以 我 们 将 使 用 以 下 简单 的 标记 化 算法 将 句子 标记 为 单词 。 我 们 要 在 各 种 标点 符号 之 前 引入 
空格 ， 以 便 将 它们 标记 为 单个 元 素 ， 然 后 对 于 未 在 词汇 表 中 发 现 的 任何 单词 ， 会 用 一 个 特殊 的 标记 
<unk> 蔡 换 。is_source 参数 告诉 我 们 是 正在 处 理 源 语句 (is_source = True) 还 是 在 处 理 目标 语句 


(is source = False) : 


def split to tokens(sent,is source): 


此 函数 接受 句子 〈 来 自 源 语言 或 目标 语言 ) 并 使 用 各 种 步骤 来 预 处 理 该 句子 〈 如 删除 标点 符号 ) 
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global src unk count, tgt unk count 


+ 删除 标点 符号 并 给 出 换行 符 
sent = sent.replace(',',' ,') 
sent = sent.replace('.',' .') 


sent = sent.replace('Mn',' ') 


sent toks - sent.split(' ') 
for t i, tok in enumerate (sent toks): 
if is source: 
* src_dictionary 包含 源 词汇 表 中 word - »wordID 的 映射 


if tok not in src dictionary.keys(): 


if not len(tok.strip())- 
sent toks[t i] = '«unk»' 


src unk count += 1 


else: 
$tgt dictionary 包含 目标 词汇 表 中 word - »wordID 的 映射 
if tok not in tgt dictionary.keys(): 
if not len(tok.strip())--0: 
sent toks[t i] = '«unk»' 
# 打印 (tok) 
tgt unk count += 1 


return sent toks 


11.7.3. 学 习 词 向量 


接 下 来 ， 我们 将 继续 学 习 词 向 量 。 要 学 习 词 向 量 , 我 们 需要 使 用 连续 词 袋 (CBOW) BUS, t 
可 以 尝试 其 他 词 向 量 学 习 的 方法 ， 如 GloVe。 在 这 里 不 再 贴 出 相关 代码 ， 具 体 可 以 查看 代码 文件 : 
chll/1word2vec.py《〈 其 中 给 出 了 一 些 学 习 词 向 量 的 代码 ) 。 


German Word Embeddings 


Nearest to In: in, Aus, An, Neben, Bei, Mit, Trotz, Auf, 

Nearest to war: ist, hat, scheint, wäre, hatte, bin, waren, kam, 

Nearest to so: verbreitet, eigentlich, ausserdem, ziemlich, Rad-,zweierlei, 
wollten, ebenso, 

Nearest to Schritte: Meter, Minuten, Gehminuten, Autominuten, km,Kilometer, 
Fahrminuten, Steinwurf, 

Nearest to Sicht: Aussicht, Ausblick, Blick, Kombination, Milde,Erscheinung, 


Terroranschláge, Ebenen, 
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English Word Embeddings 


Nearest to more: cheaper, less, easier, better, further, greater,bigger, 
More, 

Nearest to States: Kingdom, Nations, accross, attrition, Efex,Republic, 
authoritative, Sorbonne, 

Nearest to Italy: Spain, Poland, France, Switzerland, Madrid,Portugal, 
Fuengirola, 51, 

Nearest to island: shores, Principality, outskirts, islands, skyline,ear, 
continuation, capital, 

Nearest to 2004: 2005, 2001, 2003, 2007, 1996, 2006, 1999, 1995, 


在 机 器 翻译 系统 训练 中 ， 可 以 同时 学 习 词 向 量 ， 另 一 种 选择 是 使 用 预先 训练 的 词 向 量 。 


11.7.4 ”定义 编码 器 和 解码 器 


我 们 将 使 用 两 个 单独 的 LSTM 作为 编码 器 和 解码 器 。 


首先 定义 以 下 超 参 数 。 

€ batch size: 设置 批量 大 小 时 必须 非常 小 心 。 神 经 网 络 机 器 翻译 在 运行 时 可 能 需要 非常 多 
的 内 存 。 

€ num nodes: 这 是 LSTM 中 隐藏 单元 的 数量 。 较 大 的 超 参 数 num_ nodes 将 导致 更 好 的 性 能 
和 更 高 的 计算 成 本 。 


© enc num unrollings: 将 其 设置 为 源 语句 中 的 单词 数量 。 我 们 将 在 一 个 单独 的 计算 中 为 句 
子 的 完整 长 度 展 开 LSTM。 虽 然 enc_num_unrollings 越 高 ， 模 型 的 性 能 越 好 ， 但 是 这 会 降 


低 算 法 速度 。 

© dec num unrollings: 将 其 设置 为 目标 语句 中 的 单词 数量 。dec_num_ unrollings 越 高 ， 模 型 
的 性 能 表现 就 越 佳 ， 同 时 对 应 的 计算 成 本 也 就 越 高 。 

€ embedding size: 向 量 的 维 数 ， 对 于 使 用 词 向 量 的 大 多 数 实 际 问题 而 言 ，100~300 的 词 向 
量 大 小 就 足够 了 。 


# 我 们 通过 载 入 被 保存 的 词 向 量 并 获取 列 大 小 来 设置 输入 大 小 


tgt emb mat = np.load('en-embeddings.npy') 
input size = tgt emb mat.shape[1] 


num nodes = 128 


batch size = 10 


# 展开 源 语言 和 目标 语言 的 句子 全 长 


enc num unrollings = 40 
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dec num unrollings = 60 


如 果 batch size 较 大 (在 标准 笔记 本 电脑 上 超过 20 个 ) ， 则 可 能 会 遇 到 诸如 计算 机 资源 耗 尽 的 
问题 。 在 这 种 情况 下 ， 应 减少 批量 大 小 并 重新 运行 代码 。 

接 下 来 , 我 们 将 定义 LSTM 和 softmax 层 的 权重 值 和 偏差 , 使 用 编码 器 和 解码 器 变量 范围 来 使 
变量 的 命名 更 直观 ， 这 是 标准 的 LSTM 细胞 ， 我 们 不 会 重复 权重 值 的 定义 。 

下 面 ， 我 们 定义 4 个 TensorFlow 的 占 位 符 进行 训练 。 


© enc train inputs: 这 是 enc num unrollings 占 位 符 的 列表 ， 其 中 每 个 占 位 符 的 大 小 为 
[batch_size，input_size]， 用 于 将 一 批 源 语 言 名 子 提 供给 编码 器 。 

© dec train inputs: 这 是 dec num unrollings 占 位 符 的 列表 ， 其 中 每 个 占 位 符 的 大 小 为 
[batch size, input size]， 用 于 提供 相应 批 次 的 目标 语言 句子 。 

€ dec train labels: 这 是 dec num unrollings 占 位 符 的 列表 ， 其 中 每 个 占 位 符 的 大 小 为 
[batch_size，vocabulary_size]， 包 含 偏 移 量 为 1 的 dec train inputs 的 单词 。 

€ dec train masks: 这 与 dec_train inputs 的 大 小 相同 ， 并 且 屏 蔽 了 损失 计算 中 具有 </s> 标 签 
的 任何 元 素 。 这 很 重要 ， 因 为 有 许多 带 </s> 标 记 的 数据 点 ， 被 用 于 将 现 有 句子 填充 成 固定 
长 度 的 句子 。 


for ui in range (dec num unrollings): 
dec train inputs.append(tf.placeholder(tf.float32, 
shape-[batch size,input size], 
name-'dec train inputs $d'$ui)) 
dec train labels.append(tf.placeholder (tf.float32, 
Shape-[batch size,vocabulary size], 
name = 'dec train labels $d'$ui)) 
dec train masks.append(tf.placeholder(tf.float32, 
shape-[batch size,l], 
name-'dec train masks $d'$ui)) 


for ui in range(enc num unrollings): 
enc train inputs.append(tf.placeholder (tf.float32, 
shape-[batch size,input size], 


name-'train inputs $d'$ui)) 


为 了 初始 化 LSTM 细胞 和 softmax 层 的 权重 值 , 我 们 将 使 用 Xavier 初始 化 , 由 Glorot 和 Bengio 
于 2010 年 在 他 们 的 论文 《Understanding the Difficulty of Training Deep Feedforward Neural Networks, 
Proceedings of the 13" International Conference on Artificial Intelligence and Statistics (2010)》 中 引入 。 
这 是 一 种 初始 化 技术 的 原理 ， 旨 在 缓解 深度 网 络 的 梯度 消失 问题 ， 可 以 通过 TensorFlow 中 提供 的 
给 contrib.layers.xavier_initializer() 变 量 初始 化 获得 。 有 具体 来 说 ， 在 Xavier 初始 化 中 ， 神 经 网 络 的 第 
J 层 的 权重 值 根据 均匀 分 布 U [a，b] 初 始 化 ， 其 中 a 是 最 小 值 ，b 是 最 大 值 。 
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meo E wm 


这 里 ,已 是 第 j 层 的 大 小 。 


11.7.5 ”定义 端 到 端 输出 计算 


通过 定义 变量 和 输入 /输出 占 位 符 , 我 们 将 继续 定义 从 编码 器 到 解码 器 的 输出 计算 及 损失 函数 。 
对 于 输出 ， 首 先 计算 给 定 批 次 句子 中 所 有 单词 的 LSTM 细胞 状态 和 隐藏 状态 ， 这 是 通过 运行 for 
循环 语句 来 实现 的 ， 其 中 在 第 i 次 迭代 中 ， 我 们 在 enc train inputs 中 输入 第 让 个 占 位 符 ， 从 第 i1 
次 迭代 输入 细胞 状态 和 输出 隐藏 状态 。 enc_lstm_cell 函数 的 工作 方式 类 似 于 在 第 9 章 利用 LSTM 
实现 图 像 字幕 自动 生成 中 用 到 的 lstm_cell 函数 。 

# 达 代 更 新 编码 器 的 输出 和 状态 


for i in enc train inputs: 


output, state = enc lstm cell(i, output,state) 


接 下 来 , 我 们 同样 计算 整个 目标 语句 的 解码 器 的 输出 。 为 了 做 到 这 一 点 , 我 们 应 该 完成 前 面 代 
码 中 所 示 的 计算 , 以 便 可 以 获得 v 来 初始 化 解码 器 状态 , 这 是 通过 调用 tf.control. dependencies C...) 
来 实现 的 。 因 此 ，with 语句 中 的 嵌 套 命令 仅 在 完成 计算 编码 器 输出 后 执行 。 

#ERenc lstm cell 的 计算 后 ， 

# 计 算 解码 器 的 输出 和 状态 


with tf.control dependencies([saved output.assign(output), 


saved state.assign(state)]): 


* Calculate the decoder state and output iteratively 
for i in dec train inputs: 
output, state - dec lstm cell(i, output, state) 


outputs.append (output) 


在 计算 解码 器 输出 之 后 ,我 们 将 使 用 LSTM 的 隐藏 状态 作为 层 的 输入 来 计算 softmax 层 的 logits。 


# 计 算 所 有 展开 步骤 的 解码 器 的 1ogits 


logits = tf.matmul(tf.concat(axis-0, values-outputs), w) + b 


通过 计算 logits 可 以 计算 损失 。 注 意 ， 我 们 使 用 掩 码 来 掩盖 不 应 该 导致 损失 的 元 素 〈 附 加 的 元 
素 </ s> 使 得 句子 具有 固定 长 度 ) : 


loss batch = tf.concat(axis-0,values-dec train masks)* 
tf.nn.softmax cross entropy with logits v2( 


logits-logits,labels-tf.concat(axis-0,values-dec train labels)) 


loss = tf.reduce mean(loss batch) 
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与 前 几 章 不 同 ， 我 们 将 使 用 两 个 优化 器 : Adam 和 标准 随机 梯度 下 降 。 由 于 长 期 使 用 Adam 会 
产生 不 良 后 果 〈 如 BLEU 的 突然 波动 ) ， 因 此 我 们 使 用 Adam 来 获得 优化 的 良好 起 点 ， 然 后 从 那 
时 起 切换 到 SGD。 


with tf.variable scope('Rdam') : 
optimizer = tf.train.AdamOptimizer (learning rate) 
with tf.variable scope('SGD'): 


sgd optimizer = tf.train.GradientDescentOptimizer(sgd learning rate) 


# 计 算 Adam 的 裁剪 梯度 

gradients, v = zip(*optimizer.compute gradients (1oss)) 
gradients, _ = tf.clip by global norm(gradients, 5.0) 
optimize = optimizer.apply gradients (zip (gradients, v)) 


# 计算 SGD 的 裁剪 梯度 
sgd gradients, v = zip(*sgd optimizer.compute gradients (loss) ) 
sgd gradients, _ = tf.clip by global norm(sgd gradients, 5.0) 


sgd optimize = optimizer.apply gradients (zip(sgd gradients, v)) 
我 们 将 使 用 以 下 语句 , 通过 确保 对 所 有 可 训练 变量 存在 梯度 , 确保 梯度 正确 地 从 解码 器 流向 编 
DI 


for (g i,v i) in zip(gradients,v): 
assert g i is not None, 'Gradient none for $s'$(v i.name) 


注意 , 与 之 前 的 练习 相 比 , 运行 神经 网 络 机 器 翻译 系统 (NMT ) 会 慢 得 多 , 而 在 单个 GPU 上 ， 
可 能 需要 12 个 小 时 。 


11.7.6 ”神经 网 络 机 器 翻译 系统 运行 结果 (部 分 ) 的 展示 


我 们 在 10 000 步 后 获得 如 下 结果 。 


DE: &#124; Ferienwohnungen 1 Zi &#124; Ferienhäuser &#124; Landhäuser 


&#124; Autovermietung &#124; Last Minute Angebote ! ! 


EN (TRUE):&#124; 1 Bedroom Apts &#124; Holiday houses &#124; Rural 
Homes &#124; Car Rental &#124; Last Minute Offers ! 


EN (Predicted): Casino Tropez &#124; Club &#124; Club &#124; 
Aparthotels Hotels &#124; Club &#124; Last Minute Offers &#124; Last 
Minute Offers &#124; Last Minute Offers &#124; Last Minute Offers 
&1124; Last Minute Offers ! «/s» 


DE: Wie hilfreich finden Sie die Demo ##AT##—##AT## CD ? 
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EN (TRUE): How helpful do you find the demo CD ##AT##-##AT## ROM ? 


EN (Predicted): How to install the new version of XLSTAT ? «/s» 


DE: Das , Ladino di Fassa ist jedoch mehr als ein Dialekt - es ist 


eine richtige Sprache . 


EN (TRUE):This is Ladin from Fassa which is more than a dialect : it 


is a language in its own right 


EN (Predicted): The «unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk» 
«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk» 
«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk» 
«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk» 
«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk?«unk»? 


«unk»«unk»«unk»«unk»«unk»«unk?«unk» 


DE: In der Hotelbeschreibung im Internet müßte die Zufahrt beschrieben 


werden 
EN (TRUE): There are no adverse comments about this hotel at all 


EN (Predicted): The «unk»«unk» is a bit of the «unk»«unk» . «/s» 


我 们 可 以 看 到 第 一 句 翻 译 得 不 错 ， 但 第 二 句 翻 译 得 很 差 。 
下 面 是 运行 100,000 步 后 获得 的 结果 。 


DE: Das Hotel Opera befindet sich in der Nähe des Royal Theatre , 
Kongens Nytorv , &apos; Stroget &apos; und Nyhavn 


EN (TRUE): Hotel Opera is situated near The Royal Theatre , Kongens 
Nytorv , &quot; Strøget &quot; and fascinating Nyhavn . 

EN (Predicted):Best Western Hotel «unk»«unk» , «unk» , «unk» , 

«unk» , «unk» ,«unk» , «unk» , «unk» , «unk» , «unk» , «unk» , «unk» 
7 <unk> , «unk», «unk» , «unk» , «unk» , «unk» , «unk» , «unk^ , 


«unk» , «unk» ,«unk» , «unk» , «unk» , «unk» , «unk» , «unk» , 


DE: Alle álteren Kinder oder Erwachsene zahlen EUR 32,00 pro 


Übernachtung und Person für Zustellbetten 


EN (TRUE):Al11 older children or adults are charged EUR 32.00 per night 
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and person for extra beds . 
EN (Predicted): All older children or adults are charged EUR 15 «unk» 


per night and person for extra beds . «/s» 


DE: Im Allgemeinen basieren sie auf Datenbanken , Templates und 


Skripts 


EN (TRUE):In general they are based on databases , template and 
Scripts 
EN (Predicted): The user is the most important software of the 


software . «/s» 


DE: Tux Racer wird Ihnen helfen , die Zeit totzuschlagen und sie 


kónnen OpenOffice zum Arbeiten verwenden . 


EN (TRUE): Tux Racer will help you pass the time while you wait , 
and you can use OpenOffice for work . 

EN (Predicted): <unk> .com we have a very friendly and helpful 
staff . «/s» 


我 们 可 以 看 到 ,尽管 翻译 并 不 算 完美 , 但 是 大 多 数 时 候 它 却 可 以 捕捉 到 源 语句 的 上 下 文 , 并 且 
这 里 的 神经 网 络 机 器 翻译 系统 也 善于 生成 语法 正确 的 句子 。 

图 11-16 描绘 了 神经 网 络 机 器 翻译 系统 随时 间 变化 其 BLEU 得 分 的 情况 。 随 着 时 间 的 推移 , 训 
练 和 测试 数据 集 的 BLEU 得 分 明显 增加 。 
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图 11-16 神经 网 络 机 器 翻译 系统 随时 间 变化 其 BLEU 得 分 的 情况 
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11.8 结合 词 向 量 训练 神经 网 络 机 器 翻译 系统 


在 本 节 中 ， 我 们 将 讨论 如 何 结合 词 向 量 来 训练 神经 网 络 机 器 翻译 NMT) 系统， 这 个 训练 涉 
及 以 下 两 个 方面 : 
@ “与 词 谈 入 层 一 起 训练 神经 网 络 机 器 翻译 系统 。 
e ”使 用 预 训练 词 向 量 ， 而 不 是 随机 初始 化 的 词 谈 入 层 。 


有 几 种 多 语言 的 词 向 量 存储 库 可 供 使 用 : 


€  Facebook's fastText https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md 
©  CMU multilingual embeddings: http://www.cs.cmu.edu/-afn/projects/multilingual embeddings.html 


从 现在 开始 ， 我 们 将 使 用 CMU 词 向 量 (~200 MB) ， 因 为 它 与 fastText 文本 (-5 GB) 相 比 
要 小 得 多 。 首 先 需 要 下 载 德 语 (multilingual embeddings.de) 和 英语 (multilingual embeddings.en) 
词 向 量 ， 这 可 以 在 chll 文件 夹 的 代码 文件 11_nmt_with_pretrained_wordvecs.ipynb 中 找到 。 


11.8.1 最 大 化 数据 集 词汇 和 预 训练 词 向 量 之 间 的 匹配 


首先 必须 获得 预 训练 词 向 量 的 子 集 ， 这 些 子 集 与 我 们 有 意 要 解决 的 问题 相关 。 这 很 重要 , 因为 
预 训练 词 向 量 的 词汇 表 可 能 很 大 , 并 且 包 含 许多 在 数据 集 词 汇 表 中 找 不 到 的 单词 。 预先 训练 的 词 向 
量 是 一 行 ， 其 中 在 行 中 的 第 一 个 是 单词 ， 其 他 是 由 空格 分 隔 的 词 向 量 。 预 训练 词 向 量 的 示例 行 如 下 
所 示 : 

door 0.283259492301 0.198089365764 0.335635845187 -0.385702777914 
0.491404970211 .. 


而 实现 这 一 目标 的 一 种 直 白 且 朴素 的 方法 是 逐 行 运行 预 训 练 数据 集 词汇 , 如 果 发 现 当前 行 中 的 
单词 与 数据 集 词汇 表 中 的 单词 匹配 的 话 , 那么 我 们 将 该 单词 予以 保存 以 便 后 续 进 行使 用 。 但 是 这 将 
是 非常 低 效 的 ， 因 为 一 般 情况 下 词汇 往往 会 倾向 于 设计 者 给 出 的 各 类 设计 策略 。 例 如 ， 有 些 人 可 能 
认为 cafs、cat 和 Cta 是 同一 个 单词 ， 而 其 他 人 则 可 能 认为 它们 是 独立 的 单词 。 如 果 我 们 只 是 一 
地 匹配 预 训练 词 向 量词 汇 和 数据 集 词汇 ,那么 结果 可 能 会 错过 很 多 单词 。 因 此 ,我 们 将 使 用 以 下 轴 
辑 来 确保 能 够 获得 预 训练 词 向 量 中 的 大 多 数 词 向 量 。 

首先 ， 我 们 将 定义 两 个 NumPy 数组 来 保存 源 语言 和 目标 语言 的 关联 词 向 量 。 


de embeddings -np.random.uniform(size-(vocabulary size, 
embeddings size),low--1.0,high-1.0) 
en embeddings = np.random.uniform(size- (vocabulary size, 


embeddings size),low--1.0,high-1.0) 


然后 ， 打 开 包含 词 向 量 的 文本 文件 ， 如 下 所 示 。 
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filename 参数 是 针对 德语 的 multilingual embeddings.de 和 英语 的 miltilingual embeddings.en. 


with open(filename,'r',encoding-'utf-8') as f: 


接 下 来 将 通过 空格 分 割 行 来 分 隔 单词 和 词 向 量 。 


line tokens = line.split(' ') 
lword - line tokens[0] 


vector = [float(v) for v in line tokens[1:]] 


如 果 单词 为 空 (只 有 空格 、 制 表 符 或 换行 符 ) ， 则 会 忽略 : 


if len(lword.strip())--0: 


continue 


我 们 还 将 删除 单词 中 出 现 的 任何 重音 (特别 是 德语 中 的 单词 ) ， 以 确保 我 们 获得 高 概率 的 匹配 


lword = unidecode.unidecode (lword) 


我 们 将 编写 一 组 级 联 条 件 来 检查 源 语言 和 目标 语言 的 匹配 。 

首先 检查 来 自 预 训练 词 向 量 (lword》 的 单词 是 否 在 数据 集 词 汇 表 中 。 如 果 有 ， 则 检查 第 一 个 
字母 是 否 大 写 Ceat 变 为 Cat 的 情形 ) ， 且 假设 我 们 能 够 在 数据 集 词汇 表 中 找到 它 。 

如 果 没 有 ， 则 通过 从 数据 集 词汇 单词 中 删除 特殊 字符 (如 重音 符号 ) ， 以 检查 来 自 预 训练 词 向 
量 (word) 的 单词 是 否 与 任何 单词 相似 。 

如 果 满 足 其 中 一 个 条 件 , 我 们 将 获得 该 词 向 量 , 并 将 其 分 配给 由 该 单词 ID 索引 的 行 (word 一 ID) 
映射 存储 在 src. dictionary 和 tgt_dictionary 中 源 语言 和 目标 语言 》。 接 下 来 ， 执 行 下 面 的 操作 : 

# 为 嵌入 更 新 随机 初始 化 的 词 向 量 和 矩阵 

# 更 新 与 预 训练 嵌入 匹配 的 单词 数量 

# 匹 配 预 训练 词 向 量 

try: 
dword = dictionary[lword] 


words found ids.append (dictionary [lword] 


embeddings[dictionary[lword],:] = vector 
words found += 1 
3 UR TERT dC POSSUA GE HH US] 
except KeyError: 
try: 
# 首 先 尝试 将 第 一 个 字母 大 写 
if len(lword)>0: 
firt letter cap = lword[0] .upper()+lword[1:] 
else: 


continue 
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Lac vd 


dword = dictionary[firt letter cap] 


words found ids.append(dictionary[firt letter cap]) 


embeddings[dictionary[firt letter cap],:] - vector 


words found += 1 


except KeyError: 


# 如 果 没有 找到 ， 尝 试 将 单词 与 非 重音 单词 匹配 。 


try: 
dword = unaccented dict[lword] 
words found ids.append (dictionary[lword]) 
embeddings [dictionary [lword],:] = vector 


words_found += 1 


except KeyError: 


continue 


11.8.2 HARAB EX TensorFlow 变量 


我 们 将 定义 两 个 可 训练 的 TensorFlow 变量 ， 用 于 词 嵌 入 层 〈 即 tgt word embeddings 和 
src word embeddings) ， 如 下 所 示 。 
tgt word embeddings = 
tf.get variable('target embeddings',shape-[vocabulary size, 
embeddings size], 
dtype-tf.float32, initializer = 
tf.constant initializer(en embeddings)) 


src word embeddings = tf.get variable('source embeddings', 
shape-[vocabulary size, embeddings size],dtype-tf.float32, initializer = 


tf.constant initializer(de embeddings)) 
接着 ， 我 们 将 dec . inputs 和 enc . inputs 中 占 位 符 的 维度 更 改 为 [batch_size]， 并 将 数据 类 型 
更 改 为 tint32。 因 此 ， 我 们 可 以 使 用 它们 对 每 个 展开 的 输入 执行 词 向 量 查找 (tfnn.embedding_ 
lookup(..), AU Fr. 
# 定 义 展开 的 训练 输入 及 词 向 量 查找 (编码 器 ) 


for ui in range(enc num unrollings): 


enc train inputs.append(tf.placeholder(tf.int32,shape-[batch size], 
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name-'train inputs $d'$ui)) 


enc train input embeds.append(tf.nn.embedding lookup(src word 
embeddings, enc train inputs[ui])) 


# 定 义 展开 的 训练 输入 、 词 向 量 、 输 出 和 掩 码 〈 解 码 器 ) 
for ui in range (dec num unrollings): 


dec train inputs.append(tf.placeholder(tf.int32, 
shape-[batch size],name-'dec train inputs $d'$ui)) 


dec train input embeds.append(tf.nn.embedding lookup 
(tgt word embeddings,dec train inputs [ui] )) 


dec train labels.append(tf.placeholder (tf.float32, 
shape-[batch size,vocabulary size],name = 'dec train labels $d'$ui)) 


dec train masks.append(tf.placeholder(tf.float32, 
shape-[batch size,1], name-'dec train masks $d'$ui)) 


编码 器 和 解码 器 的 LSTM 细胞 计算 如 下 所 示 进 行 变化 。 在 这 部 分 中 ， 我 们 首先 使 用 源 语句 作 
为 输入 以 便 计 算 编码 器 LSTM 细胞 的 输出 ， 然 后 通过 使 用 出 自 于 编码 器 的 最 终 状 态 信息 作为 解码 
器 的 初始 化 状态 (调用 tf.control. dependencies(...)) 。 计 算 解码 器 输出 、 计 算 softmax logits 和 预测 : 

# 迁 代 更 新 编码 器 的 输出 和 状态 

for i in enc train inputs: 


output, state = enc lstm cell(i, output,state) 
print('Calculating Decoder Output') 


并 完成 enc_1lstm_cell 的 计算 后 ， 计 算 解码 器 的 输出 和 状态 


with tf.control dependencies([saved output.assign (output), 
saved state.assign(state)]): 


# 迁 代 计 算 解 码 器 状态 和 输出 
for i in dec train inputs: 
output, state = dec lstm cell(i, output, state) 
outputs.append (output) 


请 注意 ， 代 码 文件 的 输出 计算 与 此 处 显示 的 略 有 不 同 。 我 们 不 提供 先前 的 预测 作为 输入 ， 而 是 
提供 真实 的 单词 作为 输入 ， 这 倾向 于 提供 比 先前 预测 中 更 好 的 性 能 ， 会 在 下 一 节 中 详细 讨论 。 

最 后 一 个 步骤 包括 计算 解码 器 的 损失 和 定义 优化 器 以 优化 模型 参数 ， 如 前 所 述 。 

至 此 ， 我 们 可 以 概括 用 于 实现 NMT 的 计算 图 ， 并 将 模型 的 计算 图 进行 可 视 化 ， 如 图 11-17 所 示 。 
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train predictions 


saved output saved state -一 


output state i ! J 
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tf.zeros 


[tf.tensor, tf.tensor, ... tf.tensor] 


eue [tf.tensor, tf.tensor, … tf.tensor] 
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dec train input embeds 


src word embeddings — — — if.nn.embedding lookup() tf.nn.embedding lookup) <4 tgt word embeddings 


Itf. placeholder;tf.placeholder,...tf. placeholder] 


nip: Itf.placeholder;tf.placeholder,...tf. placeholder] 
enc train inputs 


dec train inputs 


图 11-17 预 训练 词 向 量 的 神经 网 络 机 器 翻译 系统 的 计算 图 


11.9 优化 神经 网 络 机 器 翻译 系统 


从 前 面 的 结果 可 以 看 出 ， 我 们 的 翻译 模型 的 表现 并 不 是 很 理想 。 这 些 结果 是 通过 在 单个 
NVIDIA 1080 TI GPU 上 运行 超过 12 小 时 的 优化 获得 的 。 另 外 ,需要 注意 的 是 , 这 些 其 实 并 不 是 完 
整 的 数据 集 ,我 们 只 使 用 了 250,000 个 句子 对 进行 训练 。 如 果 使 用 谷歌 公司 的 神经 网 络 机 器 翻译 系 
统 (GNMT) 来 翻译 的 话 ， 那 么 翻译 结果 看 起 来 是 非常 好 的 ， 除 了 有 一 些 轻微 的 错误 而 已 。 因 此 ， 
去 探讨 如 何 优化 模型 以 便 产 生 更 好 的 结果 是 非常 重要 的 。 在 本 节 中 , 我 们 将 讨论 几 种 优化 神经 网 络 
机 器 翻译 的 方法 ， 如 Teacher Forcing 算法 、 深 度 LSTM 和 注意 力 机 制 。 


11.9.1 Teacher Forcing 算法 


一 种 对 神经 网 络 机 器 翻译 NMT) 模型 进行 优化 的 方法 是 采用 Teacher Forcing 算法 (Williams 和 
Zipser, 1989) , Xi CE SUB. 进行 训练 ， 这 人 迫使 模型 生成 严格 匹配 词 级 基本 事实 的 翻译 。 

正如 我 们 在 神经 网 络 机 器 翻译 NMT) 训练 部 分 讨论 的 那样 ,将 采取 以 下 措施 来 训练 NMT R 
统 。 
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€ 首先 输入 完整 的 编码 器 句子 ， 以 获得 编码 器 的 最 终 状 态 输出 ; 

@ ”然后 将 编码 器 的 最 终 状态 设置 为 解码 器 的 初始 状态 ; 
最 后 让 解码 器 来 预测 完整 的 目标 语句 ， 除 了 编码 器 的 最 后 一 个 状态 输出 之 外 ， 再 也 没有 
任何 附加 信息 。 


例如 ， 老 师 要 求学 生 完成 以 下 句子 填空 ， 只 给 出 句子 中 的 第 一 个 单词 。 


I 


对 于 这 种 现象 ,我 们 很 容易 理解 ， 但 对 于 模型 来 说 ， 这 可 能 太 困 难 了 。 这 意味 着 ， 学 生 需 要 选 
择 主语 、 谓 语 、 宾 语 ， 了 解 语言 的 句法 ， 理 解 语言 的 语法 规则 等 。 因 此 ， 他 们 得 出 错误 句子 的 概率 
其 实 是 很 高 的 。 

如 果 要 求学 生 逐 字 逐 句 地 写 出 句子 ， 可 能 会 想 出 一 个 更 好 的 句子 。 换 句 话 来 说 ， 开 始 要 求学 生 
在 给 出 一 个 单词 (如 主语 ) 的 情况 下 写 出 下 一 个 单词 ， 如 下 所 示 : 


tp 


接着 ， 在 给 出 两 个 单词 的 条 件 下 ， 还 是 继续 要 求 填写 一 个 单词 : 


I like 
以 同样 的 方式 继续 ， 如 下 所 示 : 
I like to 7 I like to fly 7 I like to fly kites 


这 样 学 生 们 可 以 更 好 地 完成 正确 而 有 意义 的 句子 ， 而 这 种 现象 也 被 称 为 教师 强迫 (C Teacher 
Forcing) 现象 ,我 们 在 面 对 机 器 翻译 这 样 复杂 的 高 难度 任务 时 , 也 可 以 考虑 采用 Teacher Forcing 算 
法 来 减轻 翻译 任务 的 难度 ， 如 图 11-18 所 示 。 


True Target 


Wl=<s> 
Words 


Predicted 
Target Words 


y 


xN x" e xl=<s> — y? y 
11-18 Teacher Forcing 的 原理 
(输入 中 较 暗 的 箭头 表示 新 引入 的 解码 器 输入 连接 ， 右 侧 图 显示 了 解码 器 LSTM 细胞 如 何 变 化 》 


348 | TensorFlow 与 自然 语言 处 理应 用 


如 图 11-18 所 示 ， 解 码 器 的 输入 已 被 训练 数据 中 的 实际 目标 词 蔡 换 。 因 此 ， 给 定 源 语句 ， 神 经 
网 络 机 器 翻译 解码 器 不 再 需要 承担 预测 整个 目标 语句 的 负担 。 相 反 , 解码 器 只 需要 在 给 定 前 一 个 单 
词 的 情况 下 正确 地 预测 当前 单词 。 值 得 注意 的 是 ， 在 前 面 我 们 没有 详细 讨论 Teacher Forcing 算法 
的 训练 过 程 ， 但 是 在 本 章 的 所 有 代码 文件 中 都 使 用 了 Teacher Forcing 算法 。 


11.9.2 深度 LSTM 


我 们 可 以 做 的 一 个 明显 的 改进 是 通过 将 LSTM 堆 蕉 到 彼此 之 上 ， 从 而 创建 深度 LSTM (参见 
图 11-19) 来 增加 层 的 数量 。 例 如 ， 谷 歌 神经 网 络 机 器 翻译 (Google NMT，GNMT) 系统 使 用 8 
^B HE S] LSTM 层 (Google's Neural Machine Translation System: Bridging the Gap between 
Human and Machine Translation, Wu and others, Technical Report 2016) ) 。 虽 然 这 限制 了 计算 效率 ， 
但 是 拥有 更 多 的 网 络 层 可 以 极 大 地 提高 神经 网 络 学 习 两 种 语言 语法 和 其 他 语言 特征 的 能 力 。 


| went home «/s» 


>| | 
>| >| 
Ich ging nach Hause </s> <is> | went home 


图 11-19 一 个 深度 LSTM 的 示意 图 


在 论文 《Google's Neural Machine Translation System: Bridging the Gap between Human and 
Machine Translation》 介 绍 的 实验 中 ， 为 了 使 神经 网 络 机 器 翻译 系统 达到 良好 的 准确 性 ， 编 码 器 和 
解码 器 的 RNN 循 环 神经 网 络 ) 必 须 足够 深 ， 以 捕获 源 语 言 和 目标 语言 中 细微 的 不 规则 性 。 这 一 
观察 结果 类 似 于 在 论文 《Sequence to Sequence Learning with Neural Networks) (Sutskever, I., Vinyals, 
O., and Le, Q. V.,2014) 中 提 到 的 结果 ， 即 深度 LSTM 明显 优 于 浅 层 LSTM 。 与 Minh-Thang Luong 
等 人 的 论文 《4ddressing the Rare Word Problem in Neural Machine Translation》 提 到 的 结果 类 似 ， 
GNMT 对 编码 器 RNN 和 解码 器 RNN 使 用 深度 堆 登 LSTM (长 短期 记忆 ) 网 络 。GNMT 具体 架构 
如 图 11-20 所 示 。 
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图 11-20 GNMT 模型 的 架构 〈 谷 歌 的 神经 网 络 机 器 翻译 系统 ) 


关于 GNMT 架构 简要 解读 : 左边 是 编码 器 网 络 , 右边 是 解码 器 网 络 , 中 间 是 注意 力 机 制 模块 。 
底部 编码 器 层 是 双向 的 : 粉红 色 节点 从 左 到 右 收集 信息 ， 而 绿色 节点 从 右 到 左 收集 信息 。 编 码 器 的 
其 他 层 是 单 向 的 ， 剩 余 连 接 从 编码 器 和 解码 器 的 底部 第 三 层 开始 。 该 模型 被 划分 为 多 个 GPU 以 加 
速 训练 。 在 我 们 的 设置 中 ， 有 8 个 编码 器 LSTM 层 (1 个 双向 层 和 7 个 单 向 层 ) 和 8 个 解码 器 层 。 
通过 这 个 设置 ， 一 个 模型 副本 以 8 种 方式 划分 ， 并 被 放置 在 通常 属于 一 个 主机 的 8 个 不 同 的 GPU 
Eo 在 训练 期 间 ， 底 部 双向 编码 器 层 首先 并 行 计算 ， 一 旦 完成 ， 单 向 编码 器 层 便 可 以 开始 计算 ， 每 
个 都 在 单独 的 GPU 上 执行 。 为 了 在 运行 解码 器 层 期 间 保持 尽 可 能 多 的 并 行 性 ， 我 们 仅 使 用 底部 解 
码 器 层 的 输出 来 获得 循环 性 注意 力 的 上 下 文 ， 该 上 下 文 被 直接 发 送 到 所 有 剩余 的 解码 器 层 上 。 
SOFTMAX 层 也 被 划分 并 放置 在 多 个 GPU 上 。 根 据 输出 词汇 表 的 大 小 ， 我 们 要 么 让 它们 在 与 编码 
器 和 解码 器 网 络 相 同 的 GPU 上 运行 ， 要 么 让 它们 在 一 组 单独 的 专用 GPU 上 运行 。 


11.9.3 ”注意 力 模型 


注意 力 CAttention) 是 一 种 行为 和 认 知 过 程 ， 它 选择 性 地 集中 于 信息 的 离散 方面 ， 不 管 是 主观 
的 还 是 客观 的 ， 而 忽略 其 他 可 感知 的 信息 。 这 是 一 种 党 醒 的 状态 ， 是 由 头脑 以 清晰 、 生 动 的 形式 从 
似乎 几 个 同时 存在 的 物体 或 思想 序列 中 捕获 或 古 有 的 东西 。 聚焦 、 意 识 的 集中 是 它 的 本 质 ; 注意 力 
也 被 描述 为 有 限 认 知 处 理 资 源 的 分 配 。 

近 几 年 来 ,注意 力 模型 是 深度 学 习 领 域 最 新 发 展 方向 之 一 ， 并 且 在 图 像 处 理 、 语 音 识别 和 自然 
语言 处 理 的 各 种 不 同类 型 的 任务 中 都 有 深入 的 应 用 , 更 是 机 器 翻译 领域 的 关键 突破 之 一 ， 它 促成 了 
神经 网 络 机 器 翻译 系统 更 好 地 开展 工作 .注意 力 模型 允许 解码 器 访问 编码 器 的 完整 状态 的 历史 信息 ， 
从 而 在 翻译 时 创建 源 语 句 更 丰富 的 表示 。 所以， 剖析 注意 力 机 制 原理 对 于 研究 人 工 智能 技术 ,尤其 
是 深度 学 习 技 术 方面 的 人 员 来 说 非常 重要 。 

1. 人 类 的 视觉 注意 力 机 制 原理 


在 解读 注意 力 模型 之 前 , 首先 简单 介绍 一 下 人 类 视觉 的 选择 性 注意 力 机 制 的 情况 。 图 11-21 给 
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出 了 人 脑 对 于 外 界 物体 刺激 下 的 视觉 注意 力 反 应 情况 。 


n Dac -—-——— 
图 11-21 人 类 的 视觉 注意 力 


图 11-21 其 实 已 经 很 形象 化 地 揭示 了 人 类 在 看 到 一 副 图 像 时 是 如 何 高 效 地 分 配 有 限 的 注意 力 
资源 的 ,这 里 红色 区 域 块 表示 我 们 的 视觉 神经 系统 更 在 意 的 目标 区 域 。 显 然 ,在 图 中 给 出 的 场景 里 ， 
在 婴儿 的 脸 部 、 文 本 的 标题 和 文章 的 首 句 等 位 置 分 配 了 更 多 的 注意 力 资源 。 

视觉 注意 力 机 制 是 我 们 视觉 所 特有 的 大 脑 信号 处 理 机 制 。 具体 来 看 , 首先 人 类 的 视觉 会 快速 扫 
描 全 部 图 像 区 域 , 找到 含有 关键 信息 的 目标 区 域 , 或 者 说 是 注意 力 焦点 ; 然后 对 于 目标 区 域 分 配 更 
多 的 注意 力 资源 ， 以 便 搜 集 到 更 多 涉及 关注 目标 的 细节 信息 ， 同 时 抑制 其 他 无 效 信息 ; 最 后 随 着 时 
间 的 推移 , 人 类 视觉 系统 会 推移 并 调整 注意 力 焦点 ,进而 最 大 限度 地 掌握 整个 观察 区 域 的 核心 内 容 。 

(最 后 一 点 ， 笔 者 在 国内 文献 中 暂时 没有 发 现 合适 的 内 容 ， 只 是 从 国外 一 篇 文章 
http://www.wildml.com/2016/01/attention-and-memory-in-deep-learning-and-nlp/ 中 查 到 , 这 里 采用 国外 
这 篇 文章 中 提 到 的 相关 内 容 ， 焦 点 随时 间 而 推移 调整 。) 

这 是 人 类 利用 有 限 的 注意 力 资源 从 大 量 信息 中 快速 得 选 出 高 价值 信息 的 手段 ,是 人 类 在 长 期 进 
化 中 形成 的 一 种 生存 机 制 ， 人 类 视觉 注意 力 机 制 极 大 地 提高 了 视觉 信息 处 理 的 效率 与 准确 性 。 

神经 网 络 中 目前 的 注意 力 机 制 只 能 算是 非常 松散 地 基于 人 类 视觉 的 注意 力 机 制 。 虽 然 神经 网 络 
中 存在 不 同 的 模型 , 但 是 它们 本 质 上 与 人 类 的 选择 性 视觉 注意 力 机 制 类 似 , 核心 目标 也 是 从 众多 信 
息 中 选择 出 对 当前 任务 目标 更 关键 的 信息 。 可 以 归结 为 : 能 够 以 “高 分 辨 率 ” 聚 焦 于 图 像 的 某 个 区 
域 ， 同 时 以 “ 低 分 辩 率 ”感知 周转 图像， 然后 随 着 时 间 的 推移 调整 焦点 。 

2. 注意 力 模型 解决 的 问题 

在 解读 注意 力 模型 原理 之 前 ， 先 认识 一 下 注意 力 模型 解决 的 问题 是 什么 。 这 时 ， 我 们 就 不 得 不 
先 从 编码 器 -解码 器 (Encoder-Decoder) 框架 角度 去 解读 在 没有 引入 注意 力 机 制 的 情况 下 ， 其 自身 
局 限 性 的 情况 。 下 面 我 们 先 给 出 文本 处 理 领 域 常见 的 编码 器 -解码 器 框架 的 一 种 表现 形式 ， 如 图 
11-22 所 示 。 
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图 11-22 抽象 的 文本 处 理 领 域 的 编码 器 -解码 器 CEncoder-Decoder) 框架 


其 实 ， 图 11-22 所 展示 的 编码 器 -解码 器 框架 可 以 看 作 是 注意 力 分 心 模型 ， 为 了 便于 解释 ， 通 
过 下 面 的 例子 来 说 明 。 
假设 源 (Source) 和 目标 (Target) 的 词 序列 分 别 是 : Source={x1, xz Xm} Target={y1, Y2,» yn}。 
上 下 文 向 量 C 也 称 语义 编码 , 其 表达 式 为 C = f (x1, xz .,xm)。 这 里 , f 是 解码 器 的 非 线性 变换 函数 。 
生成 的 目标 词 为 y; = g(C,y1,y2.,yG-1))。 这 里 ，g 是 解码 器 的 非 线 性 变换 函数 。 


这 里 的 C、yi 实 际 上 就 是 我 们 在 神经 网 络 机 器 翻译 (NMT ) 模型 结构 详解 的 第 11.4.4 节 


中 介绍 的 V、 员 ， 因 为 这 里 都 是 通过 预测 得 到 的 数值 ， 严 格 意义 上 是 不 应 该 与 y 等 同 ， 具 
体 可 以 查看 11.4.4 小 节 关 于 神经 网 络 机 器 翻译 结构 详解 的 内 容 ， 但 是 这 里 为 了 与 一 些 主 
要 参考 文献 保持 一 致 ， 暂 且 这 么 解读 。 


ME, 我 们 正在 进行 源 语言 为 英语 、 目标 语言 为 中 文 的 翻译 ， 比 如 输入 的 是 英文 单词 : Tom ， 
Chase、Jery， 那 么 编码 器 -解码 器 框架 会 逐步 生成 中 文 词 : “汤姆 ”、“ 追 逐 ”、“ 杰 瑞 ”。 目 标 
语句 Target 的 3 个 词 生成 过 程 如 下 : 

y=g(C) 
y2 = g(C,y1) 
ys = g(C. y». y2) 

在 张 博士 的 文章 中 ， 上 面 使 用 的 是 y, = f(C). ya = f(y) ys = f(C,y1,y2)， 笔 者 认为 这 里 
使 用 g 函数 表示 更 合适 ， 都 是 表示 解码 器 的 非 线 性 变换 函数 。 

由 于 语义 编码 C 是 经 由 源 语言 Source 句子 的 每 个 词 被 编码 器 编码 加 工 后 产生 的 ， 显 然 ， 这 里 
就 Source 语句 中 的 任何 词 而 言 ， 其 对 于 生成 某 个 目标 词 y; (无 论 是 y1,ys 还 是 ya.….) 的 影响 力 是 等 
同 的 。 具体 到 上 面 提 到 的 3 个 词 翻译 情况 来 讲 , 编码 器 -解码 器 框架 在 翻译 目标 词 “汤姆 ”的 时 候 ， 
模型 里 每 个 词 对 于 目标 词 “ 汤 姆 ”的 翻译 贡献 度 是 相同 的 , 这 明显 是 符合 要 求 的 , 这 里 只 有 “Tom” 
翻译 成 “汤姆 ”更 合理 。 但 是 编码 器 -解码 器 框架 却 无 法 体现 这 一 点 ， 这 就 解释 了 为 什么 编码 器 - 解 
码 器 框架 模型 没有 体现 出 注意 力 的 原因 ， 没 有 聚焦 ， 可 以 看 作 是 注意 力 分 心 模型 。 

其 实 , 对 于 没有 引入 注意 力 机 制 的 模型 而 言 ， 我 们 输入 的 句子 长 度 较 短 时 ， 对 于 翻译 效果 影响 
有 限 ， 但 如 果 输 入 句子 较 长 时 ， 由 上 面 的 分 析 我 们 可 知 ， 此 时 所 有 的 语义 内 容 都 要 完全 转换 到 一 个 
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上 下 文 向 量 (也 就 是 本 部 分 的 语义 编码 C) 来 表示 ， 源 语句 单词 自身 信息 其 实 已 经 消失 ， 这 样 很 多 
细节 信息 也 会 丢失 严重 ， 上下文 向 量 无 法 提供 进行 良好 翻译 所 需 的 完整 信息 ， 这 将 导致 解码 器 表现 
不 佳 和 生成 次 优 的 翻译 句子 。 

另外 ， 在 解码 期 间 ， 解 码 器 LSTM 仅 在 开始 时 观察 上 下 文 向 量 。 此 后 ， 解 码 器 LSTM 必须 记 
住 上 下 文 向 量 直到 翻译 结束 。 虽 然 LSTM 擅长 长 期 记忆 ， 但 实际 上 它们 是 有 限度 的 ， 这 将 严重 影 
响 翻 译 结果 ， 尤 其 是 面临 长 句 的 情况 。 

这 时 ,注意 力 就 派 上 用 场 了 。 利用 注意 力 机 制 , 解码 器 能 够 访问 每 个 解码 时 间 步 长 上 的 编码 器 
的 完整 状态 历史 信息 。 此 外 ， 注 意 力 机 制 引 入 softmax 层 ， 其 允许 解码 器 计算 过 去 观察 到 的 编码 器 
状态 的 加 权 平均 值 , 该 加 权 平 均值 将 被 用 作 和 解码 器 的 上 下 文 向 量 。 这 允许 解码 器 在 不 同 的 解码 步骤 
中 对 不 同 的 词 分 配 不 同 的 注意 力 资源 。 

其 实 , 我 们 可 以 初步 得 出 : 注意 力 机 制 模型 要 解决 的 就 是 打破 编码 器 和 解码 器 之 间 的 上 下 文 向 
E (或 中 间 语 义 编码 ) 瓶颈 的 问题 。 

3. 注意 力 机 制 详解 


接 下 来 ， 我 们 先 抛 开 编码 器 -解码 器 框架 而 抽 离 出 注意 力 〈Attention) 模型 进行 单独 解读 ， 以 
便 更 好 地 认识 注意 力 模型 的 核心 思想 。 


(1) 注意 力 模型 
在 上 面 的 例子 中 引入 注意 力 模型 后 ,在 翻译 “汤姆 ”的 时 候 , 为 了 体现 出 英文 单词 对 于 翻译 当 
前 中 文 词 的 不 同 影响 程度 ， 我 们 假设 给 出 一 个 类 似 如 下 的 概率 分 布 值 。 


(Tom,0.6) (Chase,0.2) (Jerry,0.2) 


这 里 , 每 一 个 英文 单词 的 概率 代表 了 翻译 成 当前 词 “汤姆” 时， 注意 力 模型 分 配给 不 同 英文 单 
词 的 注意 力 资源 的 大 小 ， 对 于 正确 翻译 目标 语句 中 词 的 作用 是 非常 积极 且 稳 健 的 。 同样， 目标 语句 
中 的 每 个 词 都 需要 学 习 其 对 应 的 源 语言 句子 中 词 的 注意 力 资 源 分 配 的 概率 信息 情况 。 这 也 表明 , 在 
生成 每 个 目标 词 y; 的 时 候 , 11.9.3 小 节 中 涉及 的 中 间 语 义 编码 C 会 转换 成 视 当前 生成 词 而 不 断 变 化 
的 Ci:， 即 由 固定 中 间 语 义 编码 C 调整 为 引入 注意 力 模型 而 产生 变化 的 Ci。 我 们 认识 注意 力 模型 的 关 
键 就 在 这 里 ， 即 由 固定 的 中 间 语 义 表示 C 换 成 了 根据 当前 输出 词 来 调整 成 加 入 注意 力 模型 的 变化 
的 Ci。 每 个 Ci 对 应 着 不 同 的 源 语言 句子 中 词 的 注意 力 资源 分 配 的 概率 分 布 ， 其 计算 表达 式 如 下 ; 
L 

Cj 2 5 ajjhj 

E UJ 
XE, L 表示 Source 句子 的 长 度 ，wij 表 示 和 输出 Target 句子 第 i 个 词 时 Source 句子 中 第 j 个 词 
的 注意 力 分 配 系数 ， 乃 为 编码 器 中 输入 句子 中 第 j 个 词 的 隐藏 状态 〈 张 博士 文中 给 出 的 则 是 Source 
输入 句子 中 第 j 个 词 的 语义 编码 ， 这 里 容易 与 他 文中 提 到 的 编码 器 -解码 器 框架 中 的 “语义 编码 C 
混淆 ， 也 容易 引起 与 笔者 第 11.4.4 小 节 中 的 内 容 之 间 的 不 一 致 性 ， 在 查看 Gongbo Tang 等 人 论文 
(An Analysis of Attention Mechanisms: The Case of Word Sense Disambiguation in Neural Machine 


Translation) (2018) 后 ， 笔 者 认为 ，h 为 编码 器 中 的 隐藏 状态 应 该 更 合适 ， 这 样 与 关于 神经 网 络 
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机 器 翻译 结构 解读 的 部 分 就 可 以 连贯 起 来 )》。aij 的 表达 式 则 是 : 
T exp(e;) 
Pk=1 expe) 
这 里 , ejj 是 测量 编码 器 的 第 j 个 隐藏 状态 和 先前 解码 器 状态 sai- 对 计算 s* 有 多 大 的 能 量 或 重要 
性 ， 其 表达 式 如 下 : 


aij 


eij = vi tanh(W,sq..,) + Uahj) 


实际 上 ， 这 意味 着 要 用 多 层 感 知 器 计算 etj， 其 权重 值 为 wm、I 必 和 U， 并 且 st-5 和 力 是 神经 网 
络 的 输入 。 下 面 我 们 就 可 以 给 出 注意 力 机 制 的 架构 图 ， 如 图 11-23 所 示 。 


S(i-1) 
LIE 
Ca 
URS uw : | 
Softmax ] i a 
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图 11-23 注意 力 机 制 的 架构 
(2) 注意 力 机 制 的 本 质 
结合 11.9.3 小 节 中 的 例子 ， 在 剥离 编码 器 -解码 器 框架 后 ， 对 于 解读 注意 力 机 制 的 本 质 思想 会 
更 有 帮助 ， 如 图 11-24 所 示 。 


EE 1111 O) 


Valuel||Value2 | Value3 | | Value4 | : 


Source 


图 11-24 注意 力 机 制 的 本 质 思想 
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对 图 11-24 进行 解读 :将 Source 中 的 构成 元 素 想象 成 是 由 一 系列 的 <Key,Value> 数 据 对 构成 的 ， 
此 时 给 定 Target 中 的 某 个 元 素 Query， 通 过 计算 Query 和 各 个 Key 的 相似 性 或 相关 性 ， 得 到 每 个 
Key 对 应 Value 的 权重 值 系数 ， 然 后 对 Value 进行 加 权 求 和 ， 即 得 到 了 最 终 的 注意 力 数值 。 所 以 本 
质 上 注意 力 机 制 是 对 Source 中 元 素 的 值 (Value) 进行 加 权 求 和 ， 而 Query 和 Key 用 来 计算 对 应 
Value 的 权重 值 系数 。 可 将 其 本 质 思想 改写 为 如 下 公式 : 
Lx 
Attention(Query, Source) = » Similarity (Query, Key;) * Value; 
ici 


其 中 ，L、 是 源 语言 Source 句子 长 度 。 在 上 文 所 举 的 机 器 翻译 的 例子 里 ， 因 为 在 计算 注意 力 
(CAttention) 的 过 程 中 ，Source 中 的 Key 和 Value 合 二 为 一 ， 指 向 的 是 同一 个 东西 ， 即 输入 句子 中 
每 个 词 对 应 的 语义 编码 ， 所 以 可 能 不 容易 看 出 这 种 能 够 体现 本 质 思 想 的 结构 。 

当然 , 从 概念 上 理解 ,把 注意 力 仍然 理解 为 从 大 量 信息 中 有 选择 地 筛选 出 少量 重要 信息 并 聚焦 
到 这 些 重要 信息 上 ， 忽 略 大 多 不 重要 的 信息 ， 这 种 思路 仍然 成 立 。 聚 焦 的 过 程 体 现在 权重 值 系数 的 
计算 上 ， 权 重 值 越 大 越 聚 焦 于 其 对 应 的 Value 值 上 ， 即 权重 值 代 表 了 信息 的 重要 性 ， 而 Value 是 其 
对 应 的 信息 。 

从 图 11-24 也 可 以 引出 另外 一 种 理解 , 将 注意 力 机 制 看 作 一 种 软 寻 址 (Soft Addressing) : Source 
[以 看 作 存 储 器 内 存储 的 内 容 , 元 素 由 地 址 Key 和 值 Value 组 成 , 当前 有 一 个 Key=Query 的 查询 ， 
目的 是 取出 存储 器 中 对 应 的 Value 值 。 通 过 Query 和 存储 器 内 元 素 Key 的 地 址 进行 相似 性 比较 来 
寻 址 ， 之 所 以 说 是 软 寻 址 ， 指 的 不 像 一 般 寻 址 只 从 存储 器 中 找 出 一 条 内 容 ， 而 是 可 能 从 每 个 Key 
地 址 都 会 取出 内 容 ， 取 出 内 容 的 重要 性 根据 由 Query 和 Key 的 相似 性 来 决定 ， 之 后 对 Value 进行 
加 权 求 和 ， 这 样 就 可 以 取出 最 终 的 Value 值 ， 即 注意 力 (Attention) 值 。 所 以 不 少 研究 人 员 将 注意 
力 机 制 看 作 软 寻 址 的 一 种 特例 ， 这 也 是 非常 有 道理 的 。 

至 于 注意 力 机 制 的 具体 计算 过 程 , 如 果 对 目前 大 多 数 方法 进行 抽象 的 话 , 可 以 将 其 归纳 为 两 个 
过 程 : 第 一 个 过 程 是 根据 Query 和 Key 计算 权重 值 系 数 ， 第 二 个 过 程 是 根据 权重 值 系数 对 Value 
进行 加 权 求 和 。 而 第 一 个 过 程 又 可 以 细 分 为 两 个 阶段 : 第 一 个 阶段 根据 Query 和 Key 计算 两 者 的 
相似 性 或 相关 性 ; 第 二 个 阶段 对 第 一 阶段 的 原始 分 值 进行 归 一 化 处 理 。 这 样 ， 可 以 将 注意 力 

CAttention). 的 计算 过 程 抽象 为 如 图 11-25 展示 的 三 个 阶段 。 


aj 
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Value2 | | Value3 | | Value4 


1125 计算 注意 力 (Attention). 过 程 的 三 个 阶段 


在 第 一 个 阶段 , 可 以 引入 不 同 的 函数 和 计算 机 制 , 根据 Query 和 某 个 Key_i 计算 两 者 的 相似 性 
或 相关 性 ， 比 较 常见 的 方法 包括 : 求 两 者 的 向 量 点 积 、 求 两 者 的 向 量 余弦 〈Cosine) 相似 性 或 者 通 
过 再 引入 额外 的 神经 网 络 来 求 值 。 即 如 下 方式 : 


点 积 : Similarity(Query, Keyi) = Query - Key; 


— — s — Query Keyi 
Cosine 相似 性 : Similarity(Query, Key;) = Tn 


MLP 网 络 ; Similarity(Query, Key;) = MLP (Query, Key;) 


第 一 阶段 产生 的 分 值 根据 具体 产生 的 方法 不 同 , 其 数值 取 值 范围 也 不 一 样 , 第 二 阶段 引入 类 似 
SoftMax 的 计算 方式 对 第 一 阶段 的 得 分 进行 数值 转换 。 一 方面 可 以 进行 归 一 化 ， 将 原始 计算 分 值 整 
理 成 所 有 元 素 权重 值 之 和 为 1 的 概率 分 布 ; 另 一 方面 也 可 以 通过 SoftMax 的 内 在 机 制 更 加 突出 重要 
元 素 的 权重 值 。 一 般 采 用 如 下 公式 计算 : 

a; FSofmasiSi) 2 t; 
第 二 阶段 的 计算 结果 a; 即 为 value; 对 应 的 权重 值 系 数 ， 然 后 进行 加 权 求 和 即 可 得 到 注意 力 
CAttention). 数值 : 
Ly 


Attention(Query, Source) — 区 ai Value; 


i=1 
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通过 以 上 三 个 阶段 的 计算 ， 即 可 求 出 针对 Query 的 注意 力 CAttention) 数值 ， 目 前 绝 大 多 数 具 
体 的 注意 力 机 制 计算 方法 都 符合 上 述 的 三 阶段 的 抽象 计算 过 程 。 


11.10 ”实现 注意 力 机 制 


在 本 节 中 ， 我 们 将 讨论 如 何 实现 注意 力 机 制 。 系 统 将 经 历 的 三 个 重大 变化 ， 如 下 : 


e 将 引入 更 多 参数 (权重 值 ), 用 于 计算 注意 力 并 将 注意 力 用 作 和 解码 器 LSTM 单元 的 输入 。 

e ”引入 一 个 新 的 用 于 注意 力 相 关 计 算 的 函数 (attn_ layer) . 

€ ”改变 解码 器 LSTM 细胞 计算 ,以 将 所 有 编码 器 LSTM 细胞 输出 的 注意 力 加 权 和 作为 输入 。 

我 们 只 讨论 与 标准 神经 网 络 机 器 翻译 (NMT) 模型 相 比 引入 的 其 他 内 容 ， 用 户 可 以 在 代码 文 
fF 11 neural machine translation attention.ipynb 中 找到 含有 注意 力 机 制 的 神经 网 络 机 器 翻译 (NMT) 
的 完整 代码 。 


11.10.1. 定义 权重 值 


将 引入 三 组 新 的 权重 值 来 实现 注意 力 机 制 。 这 些 权 重 值 被 用 来 计算 我 们 先前 讨论 的 项 (ery ) 。 


Wa = tf.Variable(tf.truncated _ normal ([num nodes,num nodes],stddev-0.05), 
name-'W a') 


Ua - tf.Variable(tf.truncated normal([num nodes,num nodes],stddev-0.05), 


name-'U a') 


v_a = tf.Variable(tf.truncated normal([num nodes,1],stddev-0.05),name-'v a') 


另外 ， 我 们 定义 一 组 新 的 权重 值 ， 用 于 将 习作 为 展开 解码 器 的 第 i 步 的 输入 。 


dec ic = tf.get variable('ic',shape-[num nodes, num nodes],initializer 
-tf.contrib.layers.xavier initializer()) 


dec fc - tf.get variable('fc',shape-[num nodes, num nodes],initializer 


-tf.contrib.layers.xavier initializer()) 


dec cc - tf.get variable('cc',shape-[num nodes, 


num nodes],initializer-tf.contrib.layers.xavier initializer()) 


dec oc - tf.get variable('oc',shape-[num nodes, num nodes],initializer — 


tf.contrib.layers.xavier initializer()) 


第 11 章 机 器 翻译 | 357 


11.10.2 ”计算 注意 力 


为 了 计算 编码 器 和 解码 器 的 每 个 位 置 的 注意 力 值 ， 我 们 将 定义 一 个 函数 〈 或 方法 ) ， 即 
attn_layer(..)。 对 于 解码 器 的 单个 展开 步骤 ， 该 方法 计算 编码 器 的 所 有 位 置 (num enc unrollngs) 
的 注意 力 。attn_layer(.…) 方 法 有 两 个 参数 : 


attn layer(h j unrolled, s i minus 1) 


参数 如 下 : 
© hi unrolled: 这 些 是 num enc unrolling 编码 器 的 LSTM 细胞 的 输出 ， 我 们 在 将 源 语句 提 
供给 编码 器 期 间 进 行 计算 .这 将 是 num enc unrolling 张 量 的 列表 ， 其 中 每 个 张 量 的 大 小 


为 [batch_size，num nodes]. 
€ si minus 1: 前 一 个 解码 器 的 LSTM 细胞 的 输出 。 这 将 是 [batch_size，num nodes] 大 小 的 


张 量 。 
首先 ， 我 们 将 创建 一 个 单 张 量 ， 其 中 包含 已 展开 的 编码 器 输出 列表 [num_enc_unrollings * 
batch size, num nodes]: 
enc logits = tf.concat(axis-0,values-h j unrolled) 
然后 通过 以 下 操作 计算 Wasd-D: 


* [enc num unroll x batch_size，num_nodes] 大 小 


w a mul s i minus 1 - tf.matmul(enc outputs,W a) 


接 下 来 计算 Uahy: 


* [enc num unroll x batch size, num nodes] 大 小 
u a mul h j - tf.matmul(tf.tile(s i minus 1,[enc num unrollings,1]), U a) 


现在 ， 我 们 将 影响 力 〈 能 量 ) 计算 为 eij = vatanh(Wasq-i- Uahj) 。 这 是 一 个 张 量 
[enc num unroll * batch_size，1] 大 小 : 


e j= tf.matmul(tf.nn.tanh(w a mul s i minus 1 +u a mul h j),v a) 


我 们 首先 使 用 tsplit C. 将 e_j 分 解 为 enc_num unrolling 长 张 量 的 列表 ， 其 中 每 个 张 量 都 是 
[batch size, 1] 大 小 , 然后 沿 轴 1 连接 此 列表 以 生成 [batch_size, enc num _unrollings] 大 小 的 张 量 ( 即 
reshaped e j) . ÍT reshaped e j 将 对 应 于 编码 器 展开 的 时 间 步 长 上 所 有 位 置 的 注意 力 值 : 


4 #cmp_num unroll 元 素 列表 ， 每 个 元 素 [batch_size, 1] 


batched e j = tf.split(axis-0,num or size splits- 
enc num unrollings,value-e j) 
* [batch size, enc num unroll] X/ 


reshaped e j = tf.concat (axis-1,values-batched e j) 
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我 们 现在 可 以 很 容易 计算 reshaped ej 的 标准 化 注意 力 值 。 这 些 值 将 在 展开 的 时 间 步 长 
Geshaped e j 的 轴 1) 上 标准 化 : 


# [batch size, enc num unrol1] 大 小 


alpha i = tf.nn.softmax(reshaped e j) 


然后 将 alpha i 分 解 为 enc_num unroll 张 量 列表 ， 每 个 [batch_size，1] 大 小 : 


alpha i list = 


tf.unstack(alpha i,axis-1) 


我 们 将 计算 每 个 编码 器 输出 的 加 权 累 积 和 Ch j unrolled). 并 将 其 分 配给 c i. c i 将 用 作 解 码 
器 LSTM 细胞 的 第 i 个 展开 时 间 步 长 的 输入 : 


c i list = [tf.reshape(alpha i list[e i],[-1,1])*h j unrolled[e i] fore i in 
range (enc num unrollings)] 


c i - tf.add n(c i list) # of size [batch size, num nodes] 
为 了 将 c i 作为 解码 器 LSTM 细胞 的 第 i 步 的 输入 ， 解 码 器 LSTM 细胞 计算 有 如 下 变化 : 
* 细胞 计算 的 定义 《解码 器 ) 


def dec lstm cell(i, o, state, c): 
mn 创建 一 个 LSTM 细胞 "wm 
input gate = tf.sigmoid(tf.matmul(i, dec ix) + tf.matmul(o, dec im) 
*tf.matmul(c, dec ic) + dec ib) 


forget gate tf.sigmoid(tf.matmul(i, dec fx) + tf.matmul(o, dec fm) 


*tf.matmul(c, dec fc) + dec fb) 


update -tf.matmul(i, dec cx) * tf.matmul(o, dec cm) *tf.matmul(c, dec cc) 
*dec cb 


state = forget gate * state + input gate * tf.tanh (update) 


output gate = tf.sigmoid(tf.matmul(i, dec ox) + tf.matmul(o, dec om) 


*tf.matmul(o, dec oc) + dec ob) return output gate * tf.tanh (state), state 


11.10.3 “含有 注意 力 机 制 的 神经 网 络 机 器 翻译 的 部 分 翻译 结果 


以 下 是 我 们 在 10,000 步 后 获得 的 结果 。 


DE: &#124; Ferienwohnungen 1 Zi &#124; Ferienhäuser &#124; Landhäuser 


&#124; Autovermietung &#124; Last Minute Angebote ! ! 


EN (TRUE):&4124; 1 Bedroom Apts &$124; Holiday houses &f124; Rural 
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Homes &#124; Car Rental &#124; Last Minute Offers ! 


EN (Predicted): &f$124; Apartments &#124; Hostels &#124; Hostels &#1247 


Last Minute Offers ! </s> 

DE: Wie hilfreich finden Sie die Demo ##AT##—##AT## CD ? 

EN (TRUE): How helpful do you find the demo CD ##AT##—##AT## ROM ? 
EN (Predicted): How can you find the XLSTAT ##AT##—##AT## MX ? </s> 


DE: Das , Ladino di Fassa " ist jedoch mehr als ein Dialekt - es ist eine 


richtige Sprache 


EN (TRUE):This is Ladin from Fassa which is more than a dialect : it is 


a language in its own right 


EN (Predicted): The «unk»&quot; is a very important role in the world. 
«/s» 


DE: In der Hotelbeschreibung im Internet müßte die Zufahrt beschrieben 


werden 
EN (TRUE): There are no adverse comments about this hotel at all 


EN (Predicted): The «unk»«unk» is the «unk» of the Internet . «/s» 


与 我 们 之 前 观察 到 的 类 似 , 注意 力 集中 的 神经 网 络 机 器 翻译 擅长 翻译 某 些 句子 , 但 在 翻译 其 他 
句子 方面 却 并 不 理想 。 
以 下 是 在 100 000 步 之 后 获得 的 结果 。 


DE: Das Hotel Opera befindet sich in der Náhe des Royal Theatre , 


Kongens Nytorv , &apos; Stroget &apos; und Nyhavn 


EN (TRUE) : Hotel Opera is situated near The Royal Theatre , Kongens Nytorv , 


&quot; Streget &quot; and fascinating Nyhavn . 


EN (Predicted):Best Western Hotel «unk»«unk» , «unk» , <unk> ,«unk» , 
«unk» ,«unk» , «unk» , «unk» , «unk» , «unk» , «unk» , «unk», «unk» , «unk», 
«unk» , «unk» , «unk» , «unk» , «unk» , «unk» ,«unk» , «unk» ,«unk» , «unk» , 


«unk» , «unk» , «unk» , «unk» 


DE: Alle álteren Kinder oder Erwachsene zahlen EUR 32,00 pro 
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Übernachtung und Person für Zustellbetten . 


EN (TRUE):A11 older children or adults are charged EUR 32.00 per night 


and person for extra beds . 


EN (Predicted): A11 older children or adults are charged EUR 15 <unk> per 


night and person for extra beds . «/s» 
DE: Im Allgemeinen basieren sie auf Datenbanken , Templates und Skripts . 
EN (TRUE):In general they are based on databases , template and scripts . 


EN (Predicted): The user is the most important software of the software . 


«/s» 


DE: Tux Racer wird Ihnen helfen , die Zeit totzuschlagen und sie kónnen 


OpenOffice zum Arbeiten verwenden . 


EN (TRUE): Tux Racer will help you pass the time while you wait ,and you 


can use OpenOffice for work . 


EN (Predicted): «unk» .com we have a very friendly and helpful staff . «/s» 


我 们 使 用 了 用 于 评估 标准 神经 网 络 机 器 翻译 系统 的 同一 组 测试 句子 , 以 便于 进行 比较 。 可 以 看 
到 , 与 标准 神经 网 络 机 器 翻译 系统 相 比 , 具有 注意 力 模型 的 神经 网 络 机 器 翻译 系统 提供 了 更 好 的 翻 
译 ， 但 仍然 有 可 能 导致 一 些 错误 翻译 ， 因 为 使 用 的 数据 量 有 限 。 

图 11-26 描绘 了 神经 网 络 机 器 翻译 和 含有 注意 力 机 制 的 神经 网 络 机 器 翻译 随时 间 逐 步 变 化 的 
BLEU 评分 。 我 们 可 以 清楚 地 看 到 ,含有 注意 力 机 制 的 神经 网 络 机 器 翻译 在 训练 和 测试 数据 中 都 给 
出 了 更 好 的 BLEU 分 数 。 
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图 11-26 神经 网 络 机 器 翻译 和 含有 注意 力 机 制 的 神经 网 络 机 器 翻译 随时 间 变化 的 BLEU 评分 
根据 2017 年 的 结果 ， 目 前 德语 到 英语 翻译 的 BLEU 评分 为 35.1 (爱丁堡 大 学 的 WMT17 神经 
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网 络 机 器 翻译 系统 由 Rico Sennrich 等 人 提供 ，arXiv preprint arXiv: 1708.00726 (2017) ) 。 


11.11. 可 视 化 源 语 句 和 目标 语句 的 注意 力 


在 图 11-27 F, 我 们 以 可 视 化 方式 来 观察 注意 力 数值 如 何 为 给 定 的 目标 词 寻找 不 同 的 源 词 。 当 
计算 注意 力 数值 时 ， 我 们 得 到 了 解码 器 中 给 定位 置 的 enc num unrollings 注意 力 数值 。 因 此 ， 如 果 
将 所 有 注意 力 向 量 连 接 到 解码 器 中 的 所 有 位 置 ， 就 可 以 创建 注意 力矩 阵 。 


i 


PE 


didis 


La ixl 


1 i 1 
illladliuastiuhbul: 


图 11-27 一 些 不 同 的 源 -目标 翻译 句子 对 的 注意 力矩 阵 


在 注意 力矩 阵 中 ， 目 标 词 作 为 行 ， 源 词 作 为 列 。 对 于 某 些 行 和 列 ， 较 高 的 〈 较 轻 的 ) 值 表明 当 
预测 在 该 行 中 找到 的 目标 词 时 ， 解 码 器 主要 关注 该 列 给 出 的 源 词 。 
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11.12 历史 性 突破 一 一 BERT 模型 


11.12.1 BERT 模型 简 述 


BERT (Bidirectional Encoder Representations from Transformers) 是 一 种 预 训练 语言 表示 的 新 方 
ik. 我 们 可 以 在 一 个 大 型 文本 语料库 上 训练 一 个 通用 的 “语言 理解 ”模型 ， 然 后 将 这 个 模型 用 于 我 
们 比较 关心 的 问题 回答 等 下 游 的 自然 语言 处 理 (NLP) 任务 。BERT 模型 的 一 个 亮点 在 于 它 是 第 一 
个 用 于 预 训练 NLP 任务 的 无 监督 、 深 度 双 向 的 系统 Unsupervised, Deeply Bidirectional System) . 
无 监督 意味 着 BERT 只 使 用 纯 文本 语料库 进行 训练 ， 这 个 意义 非凡 ， 因 为 网 络 上 有 海量 的 公开 的 
纯 文 本 数据 ， 并 且 也 是 多 语言 的 。 谷 歌 研究 人 员 通 过 该 模型 在 11 项 NLP 任务 中 夺 得 STOA 结果 ， 
效果 确实 惊人 ， 其 中 在 两 个 衡量 指标 上 全 面 超越 人 类 ， 包 括 将 GLUE 基准 推 至 80.496. 〈 绝 对 改进 
7.696) 及 MultiNLI 准确 度 达到 86.7% (绝对 改进 率 5.6%) 等 ， 这 在 自然 语言 处 理学 界 及 工业 界 都 
引起 了 很 大 的 震动 ,详情 可 以 查阅 Jacob Devlin 等 人 的 论文 (BERT: Pre-training of Deep Bidirectional 
Transformers for Language Understanding) . 

BERT 模型 在 SQuAD v1.1 问题 回答 任务 的 结果 如 表 11-2 所 示 。 


表 11-2. BERT 模型 在 SQUAD v1.1 问题 回答 任务 的 结果 
SQuAD v1.1 Leaderboard (Oct 8^ 2018) 
1st Place Ensemble-BERT 
2nd Place Ensemble-nInet 
1st Place Single Model-BERT 
2nd Place Single Model-nlnet 


自然 语言 方面 部 分 推理 任务 的 结果 如 表 11-3 所 示 。 
表 11-3 ”自然 语言 方面 部 分 推理 任务 的 结果 


OpenAL GPT(Prev.SOTA) 


需要 说 明 的 一 点 是 ， 这 些 结果 都 是 在 没有 特定 任务 (Task-Specific) 的 神经 网 络 架构 设计 的 情 
况 下 获得 的 。 


2018 年 11 月 , 谷歌 在 GitHub 上 发 布 了 备 受 关注 的 “最 强 NLP ŽA” BERT 的 TensorFlow 


代码 和 预 训练 模型 地址 为 https://github.com/google-research/bert。Jacob Devlin 等 人 的 论 
X. 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》 地 
址 为 https:;//arxiv.org/abs/1810.04805. 
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11.12.2 BERT 模型 结构 


这 里 根据 Jacob Devlin 等 人 的 论文 《BERT: Pre-training of Deep Bidirectional Transformers for 
Language Understanding》 进 行 模型 简要 介绍 。 其 实 ，BERT 模型 沿袭 了 GPT 模型 的 结构 ， 采 用 
Transformer 的 编码 器 作为 主体 模型 结构 ， 也 就 是 论文 中 提 到 的 基于 Ashish Vaswani 等 人 (2017) 
的 《4itention is all you need》 中 描述 的 原始 实现 的 Multi-layer Bidirectional Transformer 编码 器 ， 并 
在 tensor2tensor 库 中 进行 发 布 。 而 Transformer MIRA T RNN 的 循环 式 网 络 结构 , 仅 是 基于 注意 力 
机 制 来 对 一 段 文本 进行 建 模 。 由 于 现在 Transformer 的 使 用 变 得 无 处 不 在 ， 论 文中 的 实现 与 原始 实 
现 完 全 相同 ， 因 此 这 里 将 省 略 对 模型 结构 的 详细 描述 。 

在 这 项 工作 中 ， 论 文 将 层 数 (Transformer Blocks) 表示 为 L， 将 隐藏 大 小 表示 为 H， 将 
Self-Attention Heads 的 数量 表示 为 A。 在 所 有 情况 下 ， 将 Feed-Forward/Filter 的 大 小 设置 为 4H, 
HI H — 768 1/73 3072, H — 1024 时 为 4096。 论 文 主要 给 出 了 以 下 两 种 模型 大 小 的 结果 。 


© BERT BASE: L-12, H-768, A-12, Total Parameters-110M 

© BERTLARGE: L-24, H-1024, A-16, Total Parameters-340M 

为 了 进行 比较 ， 论 文选 择 了 与 OpenAI GPT 具有 相同 的 模型 大 小 。 然 而 ， 重 要 的 是 BERT 
Transformer 使 用 了 双向 Self-Attention 〈 自 注意 力 ) 机 制 ， 而 GPT Transformer 则 使 用 受 限制 的 
Self-Attention 机 制 ， 其 中 每 个 Token〈 切 分 词 )》 只 能 处 理 其 左 侧 的 上 下 文 。 双 向 Transformer. 通常 
被 称 为 “Transformer Encoder”， 而 左 侧 上 下 文 则 被 称 为 “Transformer Decoder”， 因 为 它 可 以 用 
于 文本 生成 。BERT、OpenAI GPT 和 ELMo 之 间 的 比较 如 图 11-28 所 示 。 


BERT (Ours) OpenAl GPT 
a (E33) 


图 11-28 ” 预 训练 模型 架构 的 差异 


BERT 使 用 双向 Transformer: OpenAI GPT 使 用 从 左 到 右 的 Transformer: ELMo 使 用 经 过 独立 
训练 的 从 左 到 右 和 从 右 到 左 LSTM 的 串联 来 生成 下 游 任务 的 特征 。 三 个 模型 中 ， 只 有 BERT 表示 
在 所 有 层 中 共同 依赖 于 左右 上 下 文 。 

BERT 对 GPT 的 第 一 个 改进 就 是 引入 了 双向 的 语言 模型 任务 。 此 前 其 实 也 有 一 些 研究 在 语言 
模型 这 个 任务 上 使 用 了 双向 的 方法 , 例如 在 ELMo 中 是 通过 双向 的 两 层 RNN 结构 对 两 个 方向 进行 
建 模 ， 但 两 个 方向 的 损失 计算 是 相互 独立 的 。 而 BERT 的 作者 指出 : 这 种 两 个 方向 相互 独立 或 只 
有 单 层 的 双向 编码 可 能 没有 发 挥 出 最 好 的 效果 ， 我 们 不 仅 需 要 双向 编码 ， 还 需要 加 深 网 络 的 层 数 。 
但 加 深 双向 编码 网 络 却 会 引入 一 个 问题 ， 导 致 模型 最 终 可 以 间接 地 “窥探 ”到 需要 预测 的 词 。 这 个 

“ 突 探 ”的 过 程 可 以 用 图 11-29 来 表示 。 
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图 11-29 模型 间接 “窥探 ”到 需要 预测 词 的 过 程 之 示意 图 


从 图 11-29 中 可 以 看 到 经 过 两 层 的 双向 操作 , 每 个 位 置 上 的 输出 已 经 带 有 原本 这 个 位 置 上 词 的 
信息 了 。 这 样 的 “窥探 ”会 导致 模型 预测 词 的 任务 变 得 失去 意义 ， 因 为 模型 已 经 看 到 每 个 位 置 上 是 
什么 词 了 。 

为 了 解决 这 个 问题 , 我 们 可 以 从 预 训练 的 目标 入 手 。 我 们 想 要 的 其 实 是 让 模型 学 会 某 个 词 适合 
出 现在 怎样 的 上 下 文 语 境 中 ; 反 过 来 说 ,如 果 给 定 了 某 个 上 下 文 语 境 ， 那 么 我 们 希望 模型 能 够 知道 
这 个 地 方 适合 填 入 怎样 的 词 。 从 这 一 点 出 发 ,其 实 可 以 直接 去 掉 这 个 词 ， 只 让 模型 看 上 下 文 ， 然 后 
来 预测 这 个 词 , 但 这 样 做 会 丢掉 这 个 词 在 文本 中 的 位 置信 息 。 还 有 一 种 方式 是 在 这 个 词 的 位 置 上 随 
机 输入 某 一 个 词 ， 但 如 果 每 次 都 随机 和 输入， 就 可 能 会 让 模型 难以 收敛 。 

BERT 的 作者 提出 了 采用 MaskLM 的 方式 来 训练 语言 模型 。 通 俗 地 说 ， 就 是 在 输入 一 句 话 的 
时 候 ， 随 机 地 选 一 些 要 预测 的 词 ， 然 后 用 一 个 特殊 的 符号 来 代替 它们 。 尽 管 模型 最 终 还 是 会 看 到 所 
有 位 置 上 的 输入 信息 , 但 由 于 需要 预测 的 词 已 经 被 特殊 符号 代替 ,所 以 模型 无 法 事先 知道 这 些 位 置 
上 是 什么 词 ， 这 样 就 可 以 让 模型 根据 所 给 的 标签 去 学 习 这 些 地 方 该 填 的 词 了 。 

然而 这 里 还 有 一 个 问题 , 就 是 我 们 在 预 训练 过 程 中 所 使 用 的 这 个 特殊 符号 , 在 后 续 的 任务 中 是 
不 会 出 现 的 。 因此 , 为 了 与 后 续 任 务 保持 一 致 ， 作 者 按 一 定 的 比例 在 需要 预测 的 词 位 置 上 输入 原 词 
或 某 个 随机 的 词 。 当 然 ， 由 于 一 次 输入 的 文本 序列 中 只 有 部 分 的 词 用 来 进行 训练 ， 因 此 BERT 在 
效率 上 会 低 于 普通 的 语言 模型 ， 作 者 也 指出 BERT 的 收敛 需要 更 多 的 训练 步 数 。 

BERT 另外 一 个 创新 是 , 在 双向 语言 模型 的 基础 上 额外 增加 了 一 个 句子 级 别 的 连续 性 预测 任务 。 
这 个 任务 的 目标 也 很 简单 ， 就 是 预测 输入 BERT 的 两 端 文本 是 否 为 连续 的 文本 ， 作 者 指出 引入 这 
个 任务 可 以 更 好 地 让 模型 学 到 连续 的 文本 片段 之 问 的 关系 。 在 训练 的 时 候 , 输入 模型 的 第 二 个 片段 
会 以 50% 的 概率 从 全 部 文本 中 随机 选取 ， 剩 下 50% 的 概率 选取 第 一 个 片段 的 后 续 文本 。 


11.43. 总结 


在 本 章 中 ,我 们 首先 详细 介绍 了 基于 规则 的 机 器 翻译 、 统 计 机 器 翻译 等 传统 的 机 器 翻译 的 情况 ， 
包括 基于 规则 的 机 器 翻译 和 统计 机 器 翻译 各 自 的 研究 背景 、 种 类 和 模型 原理 。 
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其 次 ， 我 们 详细 讨论 了 神经 网 络 机 器 翻译 (NMT) 。 在 该 部 分 对 神经 网 络 机 器 翻译 模型 的 架 
构 和 工作 机 制 做 了 详细 解读 ,并 通过 一 个 小 实例 进行 了 深入 阐述 ,我 们 讨论 了 这 些 系统 的 基本 概念 ， 
并 将 模型 分 解 为 词 嵌入 层 、 编 码 器 .上下文 向 量 和 解码 器 。 我 们 之 所 以 首先 介绍 了 词 嵌入 层 的 好 处 ， 
是 因为 与 独 热 (One-Hot) 编码 向 量 相 比 , 它 提供 了 词 的 语义 表示 。 其 次 我 们 了 解 了 编码 器 的 目标 ， 
即 学 习 一 个 代表 源 语句 的 固定 长 度 的 向 量 。 接 下 来 , 学 习 了 固定 长 度 的 上 下 文 向 量 , 再 用 它 来 初始 
化 解码 器 。 解码 器 负责 产生 源 语句 的 实际 翻译 。 然后 我 们 讨论 了 神经 网 络 机 器 翻译 系统 中 的 训练 和 
推理 是 如 何 工作 的 。 

接着 , 我 们 给 出 了 评估 机 器 翻译 系统 的 重要 指标 : BLEU 评分 。 这 里 涉及 BLEU 的 度量 、 BLEU 
的 调整 和 第 罚 因子 、BLEU 得 分 总 结 等 。 

然后 , 我 们 研究 了 神经 网 络 机 器 翻译 系统 的 实现 , 该 系统 将 句子 从 德语 翻译 成 英语 ， 以 此 理解 
神经 网 络 机 器 翻译 系统 的 内 部 机 制 。 在 这 里 ， 我 们 研究 了 使 用 基本 TensorFlow 操作 实现 的 神经 网 
络 机 器 翻译 系统 ， 因 为 与 使 用 TensorFlow 中 的 现成 库 ( 如 seq2seq? 相 比 ， 这 使 我 们 能 够 深入 了 解 
系统 的 逐步 执行 。 

最 后 ， 我 们 讨论 了 引爆 2018 年 的 重大 研究 发 现 : BERT 模型 。 我 们 了 解 到 BERT 模型 是 第 一 
个 用 于 预 训练 自然 语言 处 理 (NLP) 任务 的 无 监督 、 深 度 双 向 的 系统 (Unsupervised，Deeply 
Bidirectional System) ， 且 该 模型 在 11 项 NLP 任务 中 夺 得 STOA 结果 ， 令 人 惊喜 。 在 这 里 ， 我 们 
知道 BERT 模型 是 经 过 改进 后 的 GPT 模型 ， 其 中 的 两 个 创新 之 处 是 : 采用 MaskLM 的 方式 来 训练 
语言 模型 ， 在 双向 语言 模型 的 基础 上 额外 增加 了 一 个 句子 级 别 的 连续 性 预测 任务 。 

在 下 一 章 中 ， 我 们 将 讨论 智能 问答 系统 。 


问答 (Question Answering; QAO 是 自然 语言 处 理 中 一 项 具有 挑战 性 的 任务 。 近 年 来 ， 随 着 深 
度 学 习 在 语义 和 句法 分 析 、 机 器 翻译 、 关 系 抽取 等 自然 语言 处 理 任务 上 取得 了 显著 的 成 功 , 利用 深 
度 学 习 来 完成 问答 任务 也 得 到 了 越 来 越 多 的 关注 。 本章 将 简要 介绍 深度 学 习 方法 在 两 个 典型 问答 任 
务 上 的 最 新 进展 的 情况 。 Q) 基于 知识 库 深度 学 习 的 问答 (KBQA) ， 主 要 采用 深度 神经 网 络 来 
理解 问题 的 含义 ， 并 尝试 将 其 转化 为 结构 化 查询 ， 或 者 直接 转化 为 分 布 式 语义 表示 。 (2) 机 器 理 
解 中 的 深度 学 习 (Machine Comprehension, MC) 是 一 种 基于 新 型 神经 网 络 的 端 到 端 范式 ， 用 于 直 
接 计算 问题 、 答 案 和 给 定 段落 之 间 的 深层 语义 匹配 。 


12.4 概要 


从 简单 的 文档 检索 到 自然 语言 问答 CQA) ， 网 络 搜索 正 处 于 深刻 变革 的 前 沿 中 。 它 需要 准确 
理解 用 户 在 自然 语言 问题 方面 的 含义 , 从 网 络 上 各 种 信息 中 提取 有 用 的 事实 , 并 选择 出 合理 的 答案 。 
与 其 他 自然 语言 处 理 (NLP) 任务 ， 如 词性 标注 、 解 析 和 机 器 翻译 类 似 ， 大 多 数 传统 的 QA 方法 都 
是 基于 符号 表示 的 。 在 这 样 的 范式 中 , 问题 和 答案 中 的 所 有 元 素 , 包括 单词 、 短 语 、 句 子 、 文 档 等 ， 
通常 都 是 借助 于 NLP 基本 模块 来 处 理 的 ， 然 后 转换 为 某 些 结构 化 或 非 结构 化 格式 ， 如 词 袋 、 解 析 
树 、 风 辑 形式 等 。 在 给 定 的 文档 或 网 页 中 ,计算 问题 和 候选 答案 之 间 语 义 的 相似 性 或 相关 性 ， 并且 
具有 最 高 分 数 的 候选 项 便 是 最 终 答案 。 尽 管 如 此 , 这 种 范式 的 弱点 在 于 所 谓 的 “语义 鸿沟 ”Semantic 
Gap) ， 即 具有 相似 含义 的 文本 跨度 可 能 会 用 不 同 的 符号 表示 。 

在 神经 网 络 模型 中 , 文本 通常 表示 为 分 布 式 向 量 , 而 文本 跨度 之 间 的 精确 匹配 可 以 由 分 布 式 向 
量 之 间 的 运算 来 实现 。 这 样 传统 方法 中 的 语义 鸿沟 问题 就 可 以 在 一 定 程度 上 得 到 缓解 。 

此 外 ， 问 答 任务 中 还 有 几 个 分 支 ， 包 括 基于 检索 的 问答 ORQA) 、 社 区 的 问答 (CQA) 、 基 
于 知识 库 的 问答 (KBQA) 和 机 器 理解 MC) 的 问答 。 在 这 里 ， 我 们 主要 关注 基于 知识 库 的 问答 

(KBQAO 和 基于 机 器 理解 (MO) 的 问答 ， 因 为 这 两 个 问答 需要 对 文本 从 问题 到 文档 进行 更 多 的 
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语义 分 析 和 理解 。 另 外 ， 我 们 还 将 从 两 个 角度 讨论 KBQA 的 最 新 进展 ， 并 进一步 回顾 针对 机 器 理 
解 MO 的 深度 学 习 工作 等 。 


12.2 ”基于 知识 库 的 问答 


截至 目前 , 其 实 已 经 有 研究 人 员 在 扩展 新 的 神经 网 络 模型 方面 进行 了 许多 成 功 的 尝试 , 并 且 提 
高 了 知识 库 问答 系统 的 性 能 。 这 里 有 多 种 新 型 的 神经 网 络 组 件 或 架构 及 其 变 体 ， 如 CNN、RNN 
(LSTM、BLSTM) 、 注 意 力 机 制 和 记忆 网 络 ， 并 且 已 经 在 任务 中 得 到 了 检验 。 这 些 工 作 内 容 可 以 
被 分 为 两 种 模式 ;信息 抽取 CInformation Extraction, IE) 和 语义 分 析 (Semantic Parsing, SP) , 
如 图 12-1 所 示 。 信 息 抽 取 模 式 通常 使 用 各 种 关系 提取 技术 从 知识 库 中 检索 一 组 候选 答案 ， 然 后 将 
这 些 候 选 答案 与 压缩 特征 空间 中 的 问题 进行 比较 :语义 分 析 模 式 则 是 借助 新 型 的 组 件 或 神经 网 络 结 
构 ， 从 句子 中 提取 出 正式 的 /符号 化 的 表示 或 结构 化 的 查询 。 


Natural Language Question Natural Language Question 


Anchor Semantic Parser 
( Topic Entity ) ( Meaning Representation ) 
Retrieve KB Graph Map n KB 
( Candidate Answer ) (. StrctuedQuery— ) 
Ranking Query m KB 
( Answer ) ( Answer 


Ca) 信息 抽取 模式 框架 (b) 语义 分 析 模 式 框架 
图 12-1 


从 另 一 个 角度 来 看 ， 我 们 可 以 将 有 关 利 用 深度 学 习 方 法 来 促进 基于 知识 库 的 问答 CKBQAO JF 
发 工作 分 为 两 类 : 在 传统 的 KBQA 框架 内 使 用 新 型 的 神经 网 络 模型 来 改进 特定 的 组 件 和 在 统一 的 
神经 网 络 架构 中 标准 化 工作 任务 。 前 一 种 观点 主要 侧重 于 利用 先进 的 神经 网 络 模型 来 改进 现 有 的 组 
件 ， 如 特征 提取 、 关 系 识别 、 语 义 匹 配 或 相似 度 计算 等 : 后 者 则 是 强调 利用 新 型 的 深度 学 习 框架 来 
使 自然 语言 的 问题 和 候选 答案 被 构建 在 同一 低 维 语义 空间 内 。 因 此 ， 该 KBQA 任务 可 以 转换 为 问 
题 的 向 量 和 该 空间 中 候选 答案 之 间 相似 度 的 计算 问题 ， 通 常 以 信息 抽取 的 方式 展开 。 


122.1 信息 抽取 


我 们 在 使 用 深度 学 习 方 法 的 过 程 中 , 主要 是 侧重 于 寻找 更 好 的 方法 将 自然 语言 的 问题 和 来 自 知 
识 库 的 候选 答案 嵌入 同一 个 且 被 压缩 的 语义 空间 中 。 一 般 情况 下 , 这 些 工作 会 在 统一 的 神经 网 络 架 
构 中 以 “检索 -嵌入 -比较 ” CRetrieval-Embedding-Comparing) 流水 线 式 (有 时 也 称 为 管道 ) 的 形 
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式 对 解决 方案 进行 标准 化 。 
1. 基本 介绍 


信息 抽取 Cnformation Extraction, IE). 是 把 文本 中 包含 的 信息 进行 结构 化 处 理 ， 变 成 表格 一 
样 的 组 织 形式 。 输入 信息 抽取 系统 的 是 原始 文本 , 输出 的 是 固定 格式 的 信息 点 。 信息 点 首先 从 各 种 
各 样 的 文档 中 被 抽取 出 来 , 然后 以 统一 的 形式 集成 在 一 起 , 这 就 是 信息 抽取 的 主要 任务 。 信 息 以 统 
一 的 形式 集成 在 一 起 的 好 处 是 方便 检索 和 比较 。 信息 抽取 技术 并 不 试图 全 面 理解 整 篇 文档 , 只 是 对 
文档 中 包含 相关 信息 的 部 分 进行 分 析 , 至 于 哪些 信息 是 相关 的 ,将 由 系统 设计 时 指定 的 范围 来 决定 。 

信息 抽取 技术 对 于 从 大 量 的 文档 中 抽取 需要 的 特定 事实 来 说 是 非常 有 用 的 , 互联 网 就 是 这 么 一 
个 文档 库 。 在 互联 网 上 ， 同 一 主题 的 信息 通常 分 散 存放 在 不 同 的 网 站 上 ， 表 现形 式 也 各 不 相同 ， 如 
果 能 将 这 些 信息 收集 在 一 起 ， 并 利用 结构 化 形式 存储 ， 那 将 是 非常 有 益 的 。 

由 于 互联 网 上 的 信息 载体 主要 是 文本 , 所 以 信息 抽取 技术 对 于 那些 把 互联 网 当成 知识 来 源 的 人 
来 说 是 至 关 重 要 的 。 信息 抽取 系统 可 以 看 作 是 把 信息 从 不 同文 档 中 转换 成 数据 库 记 录 的 系统 , 成 功 
的 信息 抽取 系统 将 把 互联 网 变 成 巨大 的 数据 库 。 

虽然 信息 抽取 技术 是 近年 来 发 展 起 来 的 新 技术 领域 , 但 也 面临 着 许多 新 的 挑战 。 信息 抽取 原来 
的 目标 是 从 自然 语言 文档 中 找到 特定 的 信息 , 是 自然 语言 处 理 领域 特别 有 用 的 一 个 子 领域 。 它 所 开 
发 的 信息 抽取 系统 既 能 处 理 含有 表格 信息 的 结构 化 文本 ， 又 能 处 理 自由 式 文本 〈 如 新 闻 报 道 ) 。 信 
息 抽取 系统 中 的 关键 组 成 部 分 是 一 系列 的 抽取 规则 或 模式 , 其 作用 是 确定 需要 抽取 的 信息 。 互 联网 
上 文本 信息 的 大 量 增加 导致 这 方面 的 研究 得 到 高 度 重视 。 

2. 向 量 表示 

Bordes 等 人 于 2014 年 率先 提出 了 信息 抽取 模式 的 方法 ， 他 们 没有 单独 将 类 别 、 实 体 引用 和 关 
系 模 式 映射 到 知识 库 中 对 应 的 类 型 、 实 体 和 谓词 ， 而 是 提出 了 一 种 更 直接 的 方法 。 他 们 设计 了 一 个 
联合 嵌入 框架 来 学 习 结 构 化 知识 库 中 的 单词 、 实 体 、 关 系 和 其 他 语义 项 的 向 量 表示 ， 并 设法 将 自然 
语言 问题 映射 到 知识 库 中 的 子 图 ， 如 图 12-2 所 示 。 

Score(q, o) 


à 1 


t dot 


"Who did Clooney marry in 19872" 


| | 


122 ”向量 表示 的 示意 图 
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当 自 然 语 言 问题 和 候选 子 图 用 低 维 向 量 表示 时 , 可 以 很 容易 地 计算 出 问题 和 子 图 之 间 的 相似 性 。 
该 模型 需要 带 注释 的 问答 配对 作为 训练 数据 , 也 可 以 通过 简单 的 模式 和 多 任务 范式 自动 收集 更 多 的 
训练 实例 。 通 过 同时 优化 其 他 资源 或 相关 的 辅助 任务 ， 如 转述 任务 ， 该 模型 则 在 确保 相似 的 话语 具 
有 更 高 的 相似 性 ， 从 而 减轻 客服 中 心 对 人 力 的 需求 。 

图 12-2 所 示 的 框架 同样 也 遵循 简单 明了 的 流水 线 式 (有 时 也 叫 管道 结构， 即 检索 -嵌入 -- 比 
较 ， 而 不 依赖 于 人 工 构造 的 特征 、 额 外 的 句法 分 析 或 传统 抽取 模型 所 采用 的 经 验 规则 那样 ， 并 在 基 
准 数据 集 上 实现 了 具有 竞争 力 的 性 能 。 

为 了 便于 实现 ， 首 先 用 词 袋 模式 来 表示 ， 然 后 经 过 一 个 压缩 过 程 ， 这 个 过 程 忽略 了 自然 语言 问 
题 中 的 句法 结构 。 类 似 的 方法 也 适用 于 候选 答案 ， 其 中 子 图 简单 地 表示 为 其 所 涉及 实体 和 关系 的 
Multi-Hot 形式 。 这 种 简化 的 方法 其 实 是 防止 模型 在 自然 语言 表示 或 知识 库 本 身 使 用 更 多 的 信息 来 
源 ， 例 如 问题 中 的 关系 短语 或 答案 类 型 指示 器 ， 或 者 知识 库 中 的 实体 谓词 一 致 性 。 

此 外 , 目前 神经 网 络 模型 的 处 理 方法 还 不 能 很 好 地 处 理 语义 的 复合 性 , 以 及 除了 词 袋 或 实体 袋 
关系 表示 之 外 的 各 种 约束 ， 如 “小 明 的 父亲 的 母亲 的 儿子 ”和 “小 明 的 母亲 的 父亲 的 儿子 ”。 而 在 
某 种 程度 上 ， 可 以 通过 对 问题 进行 更 深入 的 语法 分 析 ， 或 者 频繁 地 对 知识 库 进行 结构 挖掘 来 解决 。 

2. 使 用 CNN 嵌入 特征 


Yih 等 人 (2014) 提出 的 是 利用 卷 积 神经 网 络 (CNN) 来 讲解 决 单一 关系 问题 ， 这 与 Bordes 
等 人 在 词 袋 模型 里 处 理 所 有 问题 的 模式 是 不 同 的 。 在 Yih 等 人 的 文章 中 ， 实 际 上 是 使 用 基于 CNN 
的 语义 模型 《CNNSM) 构造 两 个 不 同 的 映射 模型 : 一 个 用 于 标识 问题 中 的 实体 ， 另 一 个 用 于 将 关 
系 喘 射 到 知识 库 的 关系 。 这 里 需要 说 明 的 是 ,假设 目标 问题 只 包含 一 个 实体 和 一 个 关系 ， 这 确实 占 
据 了 各 种 KBQA (基于 知识 库 的 问答 ) 基准 数据 集 的 很 大 比例 ， 而 这 类 问题 的 结构 化 查询 相对 比 
较 简单 ， 只 涉及 一 个 < 主语 、 谓 语 、 宾 语 > 三 元 组 。 因 此 ， 不 需要 一 个 结构 预测 过 程 来 恢复 多 个 实 
体 和 关系 之 间 固有 的 查询 结构 。 

其 实 这 里 的 关键 思想 与 Bordes 等 人 提出 的 思想 非常 类 似 ， 即 自然 语言 问题 中 表达 的 关系 模式 
和 结构 化 知识 库 中 的 关系 /谓词 可 以 通过 CNN 投射 到 相同 低 维度 的 语义 空间 中 。 同样 , 知识 库 中 的 
实体 表现 形式 与 问题 中 提 到 的 实体 相同 ， 并 且 可 以 由 CNN 捕获 到 。 因 此 ，CNNSM 可 以 提供 自然 
语言 问题 和 知识 库 中 的 候选 三 元 组 之 间 的 相似 性 ， 并 选择 得 分 最 高 的 一 个 作为 最 终 答案 。 

这 种 解决 方案 得 益 于 卷 积 神经 网 络 模型 ， 其 优 于 简单 的 词 袋 模式 ， 并 且 在 一 定 程 度 上 以 
Letter-Trigrams 向 量 作为 输入 来 处 理 词汇 表 外 COut-Of-Vocabulary, OOV) 问题 。 但 是 ， 这 也 让 我 
们 想起 了 KBQA 任务 中 的 两 个 重要 问题 : 实体 链接 和 关系 识别 ， 它 们 本 身 都 具有 足够 的 挑战 性 ， 
并 且 需 要 足够 的 训练 数据 ， 即 “分 类 -实体 ”对 和 “自然 语言 模式 -知识 库 关 系 ” 对 来 训练 模型 。 特 
别 是 目前 大 型 知识 库 中 存在 大 量 的 实体 和 关系 ， 如 Freebase， 使 得 处 理 多 个 实体 和 关系 的 问题 变 得 
更 加 具有 挑战 性 。 

另 一 方面 ，Dong 等 人 (2015) 提出 使 用 CNN 对 问题 和 候选 答案 之 间 的 不 同类 型 特征 进行 编 
码 。 他 们 提出 利用 多 列 卷 积 神经 网 络 CMulticolumn Convolutional Neural Network; MCCNNO 模型 
来 捕捉 一 个 问题 的 不 同方 面 ， 并 通过 三 个 渠道 答案 路 径 、 答 案 语 境 和 答案 类 型 ) 进一步 评分 一 对 
问答 。 
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与 简单 的 向 量 表示 (Bordes 等 ，2014) 相 比 ，MCCNN 使 用 CNN 抽取 不 同 的 特征 ， 这 些 特 征 
可 以 显 式 地 捕获 问题 中 的 主题 实体 与 知识 库 上 的 候选 答案 之 间 的 路 径 以 及 期 望 的 答案 类 型 , 这 两 点 
在 评估 一 个 候选 答案 时 显得 尤为 重要 。 通过 向 神经 网 络 中 添加 所 需 的 列 , MCCNN 还 可 以 轻松 扩展 
更 多 类 型 的 功能 。 

对 于 基于 特征 的 模型 , 实体 链接 仍然 是 一 个 悬而未决 的 问题 。 应答 路 径 的 编码 有 助 于 MCCNN 
在 某 种 程度 上 沿路 径 执行 浅 层 推 理 ， 然 而 由 于 典型 的 检索 -嵌入 -比较 (Retrieval-Embedding 
-Comparing) 框架 的 性 质 ，MCCNN 仍然 无 法 找到 更 好 的 解决 方案 来 处 理 候选 答案 之 间 的 比较 。 


3. 利用 注意 力 机 制 谋 入 特征 


Hao 等 人 (2017 年 ) 采用 了 双向 RNN 模型 来 捕获 给 定 问题 的 语义 。 他 们 认为 ， 一 个 问题 应 该 
根据 不 同 答 案 不 同方 面 的 关注 点 〈 答 案 方面 可 以 是 答案 实体 本 身 、 答 案 类 型 、 答 案 语 境 等 ) 以 不 同 
的 方式 表示 。 以 “ 谁 是 百度 公司 董事 长 ? ”为 题 ， 并 将 其 候选 答案 之 一 “李彦宏 ”作为 一 个 例子 。 
在 处 理 答案 实体 “ 李 彦 宠 ”时 ， 问 题 中 的 “董事 长 “和 “百度 公司 ”两 个 词 更 加 集中 ， 问 题 表征 
应 偏向 于 这 两 个 词 。 而 当面 对 答案 类 型 是 “公司 ”或 “董事 会 成 员 ” 时 ，“ 谁 ” 则 应 该 是 最 突出 的 
ie 同时， 有 些 问题 可 能 更 看 重 答案 类 型 而 不 是 其 他 方面 。 在 其 他 问题 中 , 答案 的 关系 可 能 是 我 们 
应 该 考虑 的 重要 信息 , 对 于 不 同 的 问题 和 答案 , 它 是 动态 和 灵活 的 。 显然 , 这 需要 一 种 注意 力 机 制 ， 
它 揭示 了 问题 表征 与 相应 答案 方面 之 间 的 相互 影响 。 

在 处 理 答案 不 同方 面 (包括 答案 路 径 、 答 案 语 境 和 答案 类 型 ) 时 ，Hao 等 人 提出 了 一 种 基于 交 
叉 注 意 力 的 神经 网 络 来 执行 KBQA ， 而 不 是 使 用 具有 不 同 参数 的 三 个 CNN 来 表示 问题 。 

交叉 注意 力 模型 代表 问题 和 答案 方面 之 间 的 相互 关注 ， 包 含 两 个 部 分 : 答案 -问题 注意 部 分 和 
问题 -答案 注意 力 部 分 ， 前 者 有 助 于 学 习 灵 活 、 充 分 的 问题 表示 ， 后 者 有 助 于 调整 问答 权重 值 。 最 
后 计算 问题 与 不 同方 面 的 每 个 对 应 候选 答案 之 间 的 相似 度 得 分 ， 并 根据 相应 的 问题 -答案 权重 值 将 
每 个 候选 项 的 最 终 得 分 组 合 在 一 起 ， 选 择 得 分 最 高 的 候选 项 作为 最 终 答案 。 


4. 利用 记忆 机 制 回 答 问题 


记忆 网 络 是 一 种 新 型 的 学 习 框 架 ， 它 是 围绕 一 种 可 以 在 特定 任务 中 读 取 和 修改 /附加 记忆 机 制 
而 设计 的 (Weston 等 人 ，2015) 。 在 记忆 网 络 范式 下 ， 基 于 知识 库 问答 任务 的 研究 已 经 有 了 一 些 
尝试 ， 主 要 是 遵循 信息 抽取 模式 的 检索 比较 方式 。 

Bordes 等 人 于 2015 年 进行 了 第 一 次 尝试 ， 主 要 侧重 于 简单 问题 的 讨论 ， 问 题 可 以 用 一 个 < 主 
体 、 关 系 、 对 象 > (<subject、 relation, object») 三 元 组 来 回答 。 在 输入 组 件 中 , 我 们 以 bag-of-symbols 
(符号 袋 ) 的 形式 读 取 结构 化 的 知识 库 并 将 其 存储 在 记忆 中 ， 并 且 问 题 被 处 理 成 bag-of-ngrams 的 
形式 ,然后 在 输出 组 件 中 ,将 bag-of-ngrams 化 的 问题 与 记忆 中 的 条 目 进行 比较 以 找到 候选 三 元 组 ， 
并 用 输入 的 问题 进行 求 值 (得 分 ) 。 其 中 ， 得 分 最 高 的 三 元 组 的 对 象 将 由 响应 组 件 提供 且 作为 模型 
给 出 答案 。 这 应 该 是 KBQA 任务 中 记忆 网 络 的 一 种 简单 应 用 ， 实 际 上 显示 了 记忆 网 络 在 管理 大 量 
知识 库 (KB) 条 目 方面 的 潜力 , 甚至 在 管理 来 自 多 个 资源 的 大 量 知识 库 条 目 时 也 是 如 此 , 如 图 12-3 
所 示 。 
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图 12-3 键 - 值 (Key-Value) 记忆 网 络 的 示意 图 (Miller 等 ，2016) 


米 勒 等 人 Miller，2016) 通过 研究 记忆 机 制 中 各 种 形式 的 键 - 值 (Key-Value) 的 知识 库 进 一 
步 扩展 了 这 一 思想 ， 改 进 后 的 模型 还 允许 从 记忆 中 读 取 多 个 地 址 来 收集 线索 /上 下 文 ， 从 而 动态 更 
新 间 题 以 获得 最 终 答 案 。 键 - 值 (Key-Value) 设计 的 优点 是 使 记忆 机 制 更 加 灵活 地 存储 各 种 知识 ， 
从 知识 库 三 元 组 (主体 + 关系 作为 键 Key， 对 象 作为 值 Value) 到 文档 〈 句 子 或 单词 窗口 作为 键 或 
值 )， 它 支持 用 异 构 资源 来 回答 更 复杂 的 问题 。 


122.2 ”语义 分 析 模 式 


语义 分 析 的 思路 是 通过 对 自然 语言 进行 语义 上 的 分 析 ， 转 化 成 为 一 种 能 够 让 知识 库 “ 看 懂 ” 的 
语义 表示 ， 进 而 对 知识 库 中 的 知识 进行 推理 (Inference) 、 查 询 (Query) 得 出 最 终 的 答案 。 简 而 
言 之 ， 语 义 解析 要 做 的 事情 就 是 将 自然 语言 的 问题 转化 为 一 种 能 够 让 知识 库 “ 看 懂 ” 的 语义 表示 ， 
即 逻 辑 形式 (Logic Form) 。 

“检索 -嵌入 -比较 ”框架 其 实 是 受益 于 各 种 神经 网 络 组 件 来 捕获 问答 相似 度 的 ， 并 且 在 简单 肯 
问题 中 表现 得 更 好 ， 其 中 的 实体 和 关系 位 于 知识 库 中 简单 化 的 子 图 中 。 但 是 ,它们 并 不 善于 解决 复 
杂 的 语义 组 合 ， 因 为 在 理解 问题 时 并 没有 明确 的 信息 抽取 机 制 来 捕捉 这 种 组 合 。 相 比 之 下 , KBQA 
中 的 其 他 主流 工作 (语义 分 析 模 式 模型 ) 在 尝试 正式 地 表示 问题 的 含义 ， 然 后 使 用 知识 库 进行 实例 
化 以 构建 基于 知识 库 的 结构 化 查询 ， 从 而 可 以 显 式 地 捕获 复杂 的 查询 。 

因此 , 这 些 模型 的 核心 组 件 是 从 自然 语言 问题 中 恢复 形式 意义 的 表示 , 如 逻辑 形式 或 结构 化 查 
询 ， 并 通过 将 表示 映射 到 知识 库 组件 并 查询 知识 库 ， 从 而 在 知识 库 中 找到 答案 。 深 度 学 习 方 法 的 工 
作 主 要 是 为 了 改进 框架 的 某 些 组 件 。 

也 可 以 将 12.2.1 小 节 中 讨论 的 CNNSM 模型 (Yih 等 , 2014) 看 作 是 一 种 语义 分 析 模 式 的 方法 ， 
它 只 能 产生 一 个 <subject、predicate、objec 人 > 三 元 组 作为 查询 ， 其 中 CNN 用 于 执行 实体 链接 和 关系 
识别 , 但 不 适合 用 于 稍微 复杂 的 问题 ,如 涉及 多 个 实体 和 关系 ， 以 及 约束 限制 方面 。 主 要 是 因为 神 
经 网 络 组 件 只 负责 与 知识 库 组 件 (实体 或 关系 ) 之 间 的 映射 ， 而 没有 明确 的 机 制 来 识别 多 个 实体 或 
关系 之 间 的 内 在 结构 。 事 实 上 ， 在 传统 的 基于 语义 分 析 模型 中 ， 已 经 通过 PCCG、PCFG、 依 赖 结 
构 或 其 他 名 法、 语义 分 析 范 式 对 这 些 结构 进行 了 深入 研究 。 
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1. STAGG : 搜索 和 剪 枝 时 的 语义 分 析 


除了 单一 关系 问题 ，Yih 等 人 (015) 建议 使 用 查询 图 的 方式 来 表示 问题 的 含义 ， 其 中 包含 4 
种 节点 : 基础 实体 (Grounded Entity， 标 准 实体 ) 、 存 在 变量 (Existential Variable) 、 入 变量 和 约 
束 /函数 。 在 这 里 ， 和 变量 是 非 标准 的 实体 ,并 且 有 望 成 为 最 终 的 答案 ; 存在 变量 可 以 指 代 (引用) 
中 间 节 点 ， 如 “小 明 的 父亲 的 母亲 ”中 的 “父亲 ”的 表达 ， 或 者 抽象 节点 ， 如 Freebase 中 的 复合 
值 类 型 (CVT) 节点 ， 并 且 约束 或 函数 被 设计 为 根据 某 些 数值 属性 〈 如 argmin) 过 滤 一 组 实体 。 
在 查询 图 中 ， 节 点 之 间 通 过 有 向 边 连接 ， 表 示 两 个 节点 之 间 的 关系 期 望 通过 知识 库 谓 词 进行 映射 ， 
如 图 12-4 所 示 。 


12-4 Yih 等 人 〈2015) 提出 的 分 阶段 查询 图 生成 模型 (STAGG) 


然后 ， 任 务 变 成 如 何 将 一 个 自然 语言 问题 转换 成 这 样 的 查询 图 。Yih 等 人 (2015) 提出 了 一 个 
分 阶段 查询 图 生成 模型 (STAGG) ， 利 用 知识 库 从 头 逐 步 剪 枝 搜索 空间 ， 并 构建 结构 化 查询 。 

STAGG 的 关键 组 件 包括 主题 实体 链接 和 识别 核心 推理 链 ， 最 后 用 约束 和 函数 进行 扩充 ， 这 基 
本 上 是 一 个 逐步 搜索 的 解析 和 排序 过 程 。 这 里 核心 推理 链 捕获 主题 实体 和 lambda 变量 之 间 的 关系 ， 
并 为 查询 提供 主干 支撑 。Yih 等 人 〈2015) 使 用 深度 卷 积 神经 网 络 模型 在 语义 上 匹配 一 个 问题 和 一 
个 谓词 序列 〈 长 度 为 2， 中 间 有 一 个 CVT 节点 ) 。 

尽管 STAGG 在 基准 数据 集 上 取得 了 成 功 ， 但 是 我 们 可 以 从 STAGG 的 设计 中 吸取 一 些 经 验 。 

主题 实体 : 第 一 步 , 找到 主题 实体 并 链接 到 知识 库 , 也 是 关键 的 一 步 。 STAGG 使 用 了 S-MART 
CYang 和 Chang, 20150 ， 这 是 一 种 短文 本 实体 链接 的 统计 模型 ， 它 对 后 续 步 又 及 整体 性 能 都 起 
着 重要 作用 。 当 将 主题 实体 链接 更 改 为 Freebase API 时 ，STAGG 的 Fl 总 分 下 降 4.1%。 

识别 核心 推理 链 : 基本 上 这 是 一 个 关系 抽取 步骤 , 用 于 捕获 如 何 从 KB 图 上 的 主题 实体 开始 获 
取 和 变量， 通过 CNN 捕获 ， 类 似 于 Yih 等 人 2014 年 提出 的 CNNSM。 鉴 于 所 有 候选 关系 的 巨大 
空间 ，STAGG 仅 考虑 与 主题 实体 相关 的 那些 候选 项 ， 并 且 捕 获 问题 如 何在 语义 上 与 主题 实体 周围 
的 KB 关系 序列 匹配 。 因 此 ， 识 别 核心 推理 链 的 这 一 过 程 成 为 匹配 和 排名 (Match-and-Rank) 的 步 
骤 ， 同 时 避免 了 大 规模 的 多 分 类 方式 。 

增加 约束 和 聚合 :STAGG 会 将 问题 中 的 其 他 实体 或 时 间 表 达 式 看 成 为 核心 推理 链 的 约束 节点 ， 
并 且 还 会 引入 某 些 函 数 以 进一步 过 滤 答 案 ， 如 将 first, smallest 转换 为 arg min。 通 过 一 组 规则 ， 我 
们 将 看 到 KBQA 系统 会 引入 聚合 函数 作为 正式 表示 的 一 部 分 。 

理解 最 高 级 别 的 表达 方式 : 正如 Berant 和 Liang (2014) 、Zhang 等 〈2015) 中 所 讨论 的 那 
样 ， 在 问题 中 可 以 看 到 最 高 级 的 话语 (表达) 。 大 多 数 KBQA 工作 都 采用 模板 或 规则 来 分 析 最 高 
级 的 表达 式 , 只 需 从 arg min 或 arg max 中 进行 选择 即 可 (Berant 和 Liang, 2014; Yih 等 , 2015) . 
然而 ， 正 式 将 最 高 级 表达 式 分 析 作为 针对 KB 的 结构 化 比较 结构 ， 将 有 助 于 KBQA 系统 更 好 地 处 
理 最 高 级 的 话语 ， 以 及 那些 具有 序数 约束 的 话语 。Zhang 等 人 (20150 设计 了 一 个 神经 网 络 模型 来 
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学 习 最 高 级 别 话语 和 KB 关系 之 间 的 潜在 对 应 关系 ， 作 为 比较 结构 中 的 比较 维度 。 例 如 ， 从 the 
longest river 到 元 组 <river.length、descending、1>， 我 们 期 望 所 有 river 在 KB 谓词 river.length 上 进 
行 比较 〈 按 降序 排序 ) ， 排 名 最 高 的 就 是 我 们 的 目标 。 

2. 改善 关系 识别 

正如 语义 分 析 模 式 工 作 中 Kwiatkowski 等 ，2013; Berant 等 ，2013; Berant 和 Liang，2014) 
所 讨论 的 那样 ， 从 问题 中 识别 KB 关系 /谓词 是 成 功 的 关键 ， 其 中 传统 的 基于 特征 的 模型 难以 捕获 
到 句子 与 KB 知识 库 ) 关系 之 间 的 不 匹配 以 及 自然 语言 话语 之 间 的 差异 。 其 实 ， 已 经 有 人 多 次 使 
用 CNN 或 RNN 模型 在 探索 词汇 或 句法 特征 的 关系 提取 中 尝试 应 用 了 深度 学 习 方法 很 多 次 (Zeng 
^$, 2014; Liu 等 ，2015，Xu 等 ，2015) . 

KBQA 中 的 关系 提取 组 件 旨 在 处 理 短 的 语 境 中 基于 KB 的 关系 , 其 中 有 多 达 数 千 个 候选 项 。 一 
种 可 能 的 解决 方案 是 通过 CNN 在 自然 语言 话语 和 KB 关系 之 间 执 行 语义 匹配 (Y 也 等 ,2014 和 2015)， 
避免 对 数 百 种 关系 进行 直接 分 类 ， 如 图 12-5 所 示 。 


doj 
aux 
QA ac nSubj TAL peo ay poti 


[Who] does [michael keaton] play in [cars] 


relations — u relation#2 
[Who]e, does [michael keaton]e play in car: H 

Í Fenure arsction chanet 一、 channal2 

1 a (contextual) 


OOOOOOOD i 
Soim) 
fil film stang film performance character 1 
*" film actor film. film performancc.film i 
'v actostarring roles.tvregular v appearanoc.character. 


iat Hnferences lm film characterporirayed in films. 
macto fil. flm performance character 
Deum Eas 


| Cam 一 
‘michael keaton [5] 


select ?x where { 


m.0lj$ws — film.actor.film..film.performance.character i 


图 12-5 多 通道 卷 积 神经 网 络 (MCCNN) 模型 示意 图 

Xu 等 人 (2016) 提出 了 一 种 多 通道 卷 积 神经 网 络 CMCCNNO 模型 ， 从 词法 和 句法 两 方面 学 
TRR 稳健 的 关系 表示 , 这 些 方法 更 适合 开放 域 的 KBQA 场景 。 因为 在 一 个 开放 域 的 KB 中 ， 
通常 有 上 千 个 关系 , 传统 的 基于 特征 的 模型 不 可 避免 地 会 遇 到 数据 稀疏 问题 和 对 未 知 单词 泛 化 能 
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差 的 问题 。 

3. 神经 符号 机 器 

还 有 另 一 个 有 趣 的 语义 分 析 模式 的 工作 , 试图 结合 神经 网 络 和 符号 推理 的 优点 来 改善 问答 效果 。 
Liang 等 人 于 2017 年 引入 神经 符号 机 器 (Neural Symbolic Machine，NSM) ， 其 配备 了 一 个 神经 网 
络 组 件 ， 负 责 从 自然 语言 表示 映射 到 可 执行 的 代码 ， 以 及 一 个 符号 组 件 来 执行 代码 ， 以 剪 枝 搜索 空 
间 来 找到 答案 。 

具体 来 说 ， 神 经 网 络 组 件 基本 上 是 一 个 序列 到 序列 模型 ， 它 维护 一 个 关键 变量 存储 器 
(Key-Variable Memory) ， 在 生成 程序 序列 时 处 理 中 间 结 果 。 但 是 ， 神 经 网 络 组 件 和 符号 解释 器 
的 混合 设计 会 使 整个 框架 难以 训练 ， 然 后 要 将 其 转换 为 一 个 强化 学 习 问 题 来 解决 。 


122.3 ”信息 抽取 与 语义 分 析 小 结 


综 上 所 述 , 其 实 很 容易 发 现 我 们 不 需要 对 信息 抽取 方法 和 语义 分 析 方法 进行 明确 的 区 分 。 这 两 
种 观点 确实 各 有 优势 ， 信 息 抽 取 〈 正 ) 方法 更 多 地 利用 了 新 型 神经 网 络 模型 和 架构 的 优点 ， 以 便 在 
压缩 的 语义 空间 中 更 好 地 表示 问题 和 候选 答案 , 并 且 更 容易 在 模型 结构 中 合并 各 种 特征 表示 。 另 一 
方面 ， 深 度 学 习 为 语义 分 析 〈SP) 模型 提供 了 更 精确 的 关系 或 约束 识别 /映射 ， 并 支持 更 精确 /复杂 
的 含义 表示 和 推导 。 

事实 上 , 之 前 很 多 的 成 果 都 可 以 被 认为 是 具有 这 两 方面 的 特性 , 尤其 是 那些 针对 简单 问题 或 受 
益 于 这 两 种 模式 的 成 果 。 例 如 ，STAGG 遵循 传统 的 语义 分 析 模 式 ， 从 一 个 问题 构造 结构 化 查询 ， 
其 分 级 - 剪 棱 有 助 于 剪 枝 搜索 空间 ， 从 而 获得 更 好 的 查询 结构 和 整体 性 能 。 我 们 认为 ， 一 些 具有 信 
息 抽取 和 语义 分 析 两 种 模式 优点 的 新 范式 ， 如 记忆 网 络 模型 和 神经 符号 框架 ， 具 有 足够 的 灵活 性 ， 
可 以 适用 于 更 复杂 的 问题 。 


122.4. 挑战 


随 着 基于 知识 库 问 答 系统 的 发 展 , 已 经 出 现 了 几 个 最 受 关注 或 讨论 的 问题 , 尤其 是 在 使 用 深度 
学 习 模 型 的 背景 下 。 

1. 组 合 性 

传统 基于 语义 分 析 的 KBQA〈 基 于 知识 库 的 问答 ) 工作 通常 依赖 组 合 分 类 语法 (CCG) 或 概 
率 从 问题 中 推导 出 其 意义 表示 (Cai 和 Yates, 2013; Kwiatkowski 等 ，2013) ， 如 果 不 考虑 这 些 句 
法 结构 ， 如 信息 抽取 模式 的 方法 ， 那 么 在 统一 模型 中 进行 显 式 捕获 是 相对 困难 的 。 因 此 ,许多 现 有 
WTE ORR) 依赖 于 手工 定义 的 规则 或 模板 来 处 理 组 合 性 〈Yih 等 ，2015) 。 

2. 自然 语言 与 知识 库 之 间 的 差距 

我 们 已 经 讨论 过 , 当 尝 试 检索 候选 答案 或 将 自然 语言 话语 与 知识 库 项 目 相 匹配 时 , 实体 链接 和 
关系 抽取 是 两 个 主要 障碍 。 其 主要 原因 是 自然 语言 与 知识 库 的 不 匹配 , 包括 语言 方面 上 下 文 的 限制 
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或 省 略 、 子 词汇 的 构 词 性 ， 甚 至 是 知识 库 设 计 的 缺陷 。 目 前 ， 相 关 研究 人 员 已 经 提出 了 各 种 神经 网 
络 模型 来 改进 关系 匹配 或 抽取 方法 ， 但 对 实体 链接 任务 的 关注 却 远 远 不 够 ， 而 实体 链接 任务 又 是 
KBQA 系统 的 基本 步骤 。 


3. 训练 数据 


关于 训练 数据 方面 , 其 实 训练 数据 一 直 是 各 种 机 器 学 习 方 法 中 存在 的 问题 , 尤其 是 神经 网 络 模 
4， 它 比 传统 方法 需要 更 多 的 训练 数据 。 在 问答 场景 中 ， 收 集 问答 配对 的 成 本 是 非常 昂贵 的 ， 更 不 
用 说 任何 好 的 注释 ， 如 逻辑 形式 、 结 构 化 查询 ， 甚 至 实体 和 关系 注释 。 可 能 的 解决 方案 包括 使 用 问 
答 配对 作为 间接 监督 来 收集 伪 标 签 (Yih 等 ，2015; Xu 等 ，2016) ， 或 者 使 用 噪声 标签 或 模板 自 
动 收 集训 练 数 据 (Miller 等 ，2016; Bordes 等 ，2014a) . 

KBQA《〈 基 于 知识 库 的 问答 ) 是 一 项 具有 挑战 性 的 任务 ， 它 需要 许多 NLP 或 下 技术 ， 如 词汇 
分 析 、 句 法 分 析 、 信 息 抽取 、 实 体 链 接 、 推 理 等 ， 而 深度 学 习 的 最 新 进展 为 提高 KBQA 提供 了 有 
用 的 工具 或 新 的 框架 ， 这 些 在 早期 是 大 家 公认 的 。 我 们 相信 ， 神经 网 络 建 模 与 问答 的 深度 融合 将 会 
给 这 一 领域 带 来 更 多 的 机 遇 。 


12.3 ”机 器 理解 中 的 深度 学 习 


12.3.1 任务 描述 


机 器 理解 CMachine Comprehension, MC) 是 近年 来 在 自然 语言 处 理 和 人 工 智能 领域 得 到 广泛 
应 用 的 一 种 新 的 应 用 。 机 器 理解 具备 测试 机 器 阅读 、 处 理 和 理解 文本 的 能 力 。 机 器 理解 遵循 传统 的 
QA (问答 ) 设置 ， 但 仍 存在 一 些 差异 。 

COD 在 传统 的 QA 中 ， 对 于 给 定 的 问题 ， 答 案 的 来 源 可 能 各 种 各 样 ， 比 较 繁 杂 ， 如 基于 知识 
库 的 问答 CKBQAO . Web 搜索 结果 ， 甚 至 一 些 问 答 平 台 (也 称 为 社区 QA) 。 而 在 机 器 理解 中 ， 
上 下 文 的 知识 则 仅 限 于 给 定 的 单个 文档 。 

(2) 与 传统 的 QA 相 比 ， 特 别 是 对 于 IRQA 和 KBQA， 机 器 理解 主要 关注 那些 无 法 直接 回答 
的 问题 ， 需 要 根据 给 定 文档 中 的 多 个 实体 或 事件 进行 推理 。 另 外 ， 机 器 理解 中 需要 推理 能 力 。 

(3) 与 传统 的 QA 相 比 ， 机 器 理解 中 的 答案 类 型 更 加 多 样 化 ， 从 单个 单词 到 多 个 句子 不 等 。 
此 外 ， 机 器 理解 的 问题 形式 也 是 多 种 多 样 的 ， 如 多 项 选择 题 〈 前 面 提供 的 答案 候选 项 ) 和 完 形 填空 
式 问题 (没有 提供 候选 项 ， 需 要 从 系统 中 生成 答案 ) 。 

1. 数据 集 

MCTest， 机 器 理解 的 任务 始 于 自然 语言 处 理 (NLP) 社区 。2013 年 ， 微 软 研究 人 员 提 出 了 
MCTest (Richardson 等 ，2013) 数据 集 来 评估 机 器 的 理解 能 力 。 在 MCTest 中 ， 每 个 文档 〈 故 事 ) 
都 与 4 个 问题 相关 联 。 对 于 每 个 问题 , 提供 4 个 候选 答案 , 并 且 系 统 需要 选择 正确 的 答案 。MCTest 
的 一 个 例子 如 图 12-6 所 示 。 
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Alyssa got to the beach after a long trip. She's from 
Charlotte. She traveled from Atlanta. She’ s now in 
Miami. She went to Miami to visit some friends 


The girls went to a restaurant for dinner. The 


restaurant had a special on catfish. Alyssa enjoyed 
the restaurant's special. Ellen ordered a salad. 
Kristin had soup. Rachel had a steak. 


1: one: Why did Alyssa go to Miami? 


7C) vi friends. 

D) laying out 

2: multiple: What did Alyssa eat at the restaurant? 
A) steak 

B) soup 

C) salad 

7D) catfish 


图 12-6. MCTest 数据 中 故事 和 问题 的 示例 


显然 ，MCTest 是 一 个 标准 的 阅读 理解 数据 集 ， 其 中 的 故事 是 虚构 的 ， 一 些 问题 可 以 从 几 个 句 
T (标记 为 多 个 ) 中 进行 回答 。 作 者 将 数据 集 分 为 两 个 子 集 ， 包 括 MC160 和 MC500， 分 别 包含 
160 和 500 个 故事 ， 但 是 此 数据 集 的 规模 太 小 ， 有 时 仅 用 作 测 试 设置 。 近 年 来 ， 许 多 研究 者 通常 借 
助 外 部 语言 工具 来 提取 特征 ， 然 后 在 此 基础 上 进行 推理 。 从 MCTest 开始 ， 已 经 发 布 了 几 个 机 器 理 
解数 据 集 。 在 这 里 ， 我 们 主要 介绍 以 下 几 个 标准 的 数据 资源 。 

bAbi: bAbi CWeston 等 ，2015) 是 一 个 机 器 理解 数据 集 ， 根 据 作 者 的 描述 是 人 工 智 能 完全 问 
题 〈 自 然 语 言 处 理 被 认为 是 人 工 智能 完全 问题 (AI Complete) ， 也 就 是 说 ， 如 果 自 然 语 言 处 理 实 
现 了 ， 人 工 智能 也 就 实现 了 ) 。 总 的 来 说 ，bAbi 包含 20 个 子 任务 ， 其 中 每 个 子 任务 需要 不 同 的 应 
答 技巧 。 一 些 子 任务 示例 如 图 12-7 所 示 。 


John is in the playground. John is in the playground. 

Bob is in the office. Daniel picks up the milk. 

Where is John? playground Is John in the classroom? no 
Does Daniel have the milk? yes 


single supporting fact 


Yes or No questions 


John is in the playground. — 
Bob is in the office. The office is north of the bedroom. 


John picked up the football. The bedroom is north of the bathroom. 
Bob went to the kitchen. What is north of the bedroom? office 
What is the bedroom north of? bathroom 


Where is the football? playground 
Where was Bob before the kitchen? office 


Subject vs. Object 


two supporting facts 


12-7 bAbi 数据 集中 部 分 子 任务 


由 于 该 数据 集 被 划分 为 不 同 的 类 别 , 因此 不 同 子 任务 上 的 性 能 可 能 会 暴露 出 一 个 模型 在 不 同 问 
题 类 型 上 的 优 缺 点 。 整个 数据 集 是 由 几 个 人 工 设计 的 规则 自动 合成 和 自动 生成 的 , 虽然 规则 应 该 是 
无 限制 的 , 但 实际 上 生成 规则 仅 基 于 不 超过 100 个 单词 。 因 此 ， 此 数据 集中 的 某 些 问题 或 文档 是 重 
复 的 。 由 于 bAbi 是 由 规则 自动 合成 的 ， 因 此 被 利用 的 算法 或 系统 更 可 能 接近 所 使 用 的 生成 规则 。 
SQuAD: SQuAD (Rajpurkar 等 ，2016) 是 斯 坦 福 问答 数据 集 ， 是 最 近 发 布 的 一 个 人 工 创建 的 
大 型 机 器 理解 数据 集 。 该 数据 集 包含 近 100 000 个 “文档 -问题 ”配对 ， 这 些 文档 来 源 于 维基 百科 


第 12 章 智能 问答 系统 | 377 


页 面 , 然后 注释 者 根据 这 些 文档 提出 一 些 问题 , 并 在 文档 中 标注 出 相应 的 答案 . 请 注意 , 在 SQUAD 
中 没有 提供 候选 答案 。 系 统 可 以 通过 预测 答案 在 文档 的 开始 和 结束 位 置 来 “生成 ”答案 。 这 里 的 问 
题 示 例如 图 12-8 所 示 。 


In meteorology, precipitation is any product of the condensation 
of atmospheric water vapor that falls under gravity. The main 
forms of precipitation include drizzle, rain, sleet, snow, graupel 
and hail... Precipitation forms as smaller droplets coalesce via 
collision with other rain drops or ice crystals within a cloud. Short, 
intense periods of rain in scattered locations are called "showers". 


Where do water droplets collide with ice crystals to form precipitation? 


图 12-8 SQuAD 数据 集中 问题 示例 
此 外 ， 最 近 还 发 布 了 几 个 与 SQuAD 规模 和 形式 都 相似 的 机 器 理解 数据 集 ， 如 NewsQA 7 和 


Marco. 

完 形 填空 式 机 器 理解 数据 集 : 除了 机 器 理解 中 提 到 的 QA 形式 之 外 , 完 形 填空 式 查 询 Taylor, 
1953) 也 是 其 中 的 基本 形式 之 一 。 这 种 类 型 具有 阅读 理解 的 大 部 分 特征 ， 但 答案 只 是 文档 中 的 一 个 
单词 。 实 际 上 ， 最 近 提 出 了 许多 这 类 的 数据 集 ， 如 CNN/Daily Mail (Hermann 等 ，2015) 和 CBT 

(Hill 等 ，2015) 。 在 CNN/Daily Mail 中 ， 作 者 提出 了 一 种 从 两 个 新 闻 语 料 库 中 自动 生成 完 形 填 
空 的 方法 , 每 条 新 闻 报道 都 有 一 个 标题 或 摘要 。 如 果 作 者 删除 标题 中 的 一 个 具体 名 词 ， 系 统 就 需要 
根据 给 定 的 文档 来 填充 这 个 占 位 符 。 为 了 避免 语言 建 模 或 超出 文本 理解 范围 的 现实 世界 知识 的 影响 ， 
作者 对 文档 和 查询 中 涉及 的 所 有 实体 进行 了 匿名 化 处 理 。 在 CBT 中 , 每 个 文档 包含 20 个 连续 的 句 
子 ， 第 21 句 中 有 一 个 词 被 移 去 了 。 为 了 避免 在 阅读 理解 中 使 用 基于 语言 建 模 的 方法 ， 答 案 仅 限于 
专 有 名 词 。 图 12-9 给 出 了 CNN/Daily Mail 的 一 个 例子 。 


[CONTEXT: 
( Gentity4 ) if you feel a ripple in the force today , it may be the news that the 
official &entity6 is getting its first gay character . according to the sci-fi website 
Gentity9 , the upcoming novel " Gentity11 " will feature a capable but flawed 
Gentity13 official named Gentity14 who " also happens to be a lesbian . " 
comics and books approved by @entity6 franchise owner (9entity22 — according] 
to G'entity24 , editor of " @entity6 " books at Gentity28 imprint @entity26 . 


QUESTION: 

characters in " (placeholder " movies have gradually become more diverse 
ANSWER: 

@entity6 


图 12-9 ”CNN/Daily Mail 数据 集 的 示例 
2. 实现 机 器 理解 的 知识 需求 
机 器 理解 是 一 项 综合 性 的 推理 任务 ， 需 要 对 自然 语言 有 深入 地 理解 。 在 心理 学 中 , 理解 来 自 于 
词语 之 间 的 相互 作用 ， 这 些 词语 可 以 触发 给 定 段落 、 文 档 内 部 和 外 部 的 知识 。 它 是 一 个 创造 性 的 、 
多 方面 的 过 程 ， 依 赖 于 4 种 语言 技能 : 语音 学 、 语 法 学 、 语 义学 和 语 用 学 。 对 于 机 器 理解 问题 ， 要 
实现 真正 的 理解 甚至 还 需要 理解 多 个 子 句 ( 从 句 ) 之 间 的 关系 。 例 如 , 要 理解 事件 之 问 的 时 间 关 系 ， 
隐 式 地 需要 识别 连接 词 (when, as, since, ...) 、 时 间 索 引 词 (moming, evening, ...) 、 时 态 和 方 
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位 (Aspect， 笔 者 认为 也 可 以 是 角度 ) (went, is going, will go，...) 等 表达 式 。 此 外 ， 还 需要 其 他 
推理 技巧 ， 例 如 数学 运算 需要 回答 与 算术 问题 有 关 的 问题 ， 如 “汤姆 有 4 支 铅笔 ， 给 了 同 桌 2 x 
他 还 剩 几 支 铅笔 ? ”, 需要 回答 这 类 问题 的 系统 应 该 推断 出 等 式 “4-2=2”。Sugawara 等 人 (2017) 
提出 了 机 器 理解 需要 的 10 个 技能 ， 如 图 12-10 所 示 。 


Skills Descriptions or examples 


List/Enumeration Tracking, retaining, and list/enumeration of entities or states 
Mathematical operations Four arithmetic operations and geometric comprehension 
Coreference resolution Detection and resolution of coreference 
Logical reasoning Induction, deduction, conditional statement, and quantifier 
Analogy Trope in figures of speech, e.g., metaphor 
Spatiotemporal relations Spatial and/or temporal relations of events 
Causal relations Relations of events expressed by why, because, the reason for, and so on 
Commonsense reasoning Taxonomic knowledge, qualitative knowledge, action and event changes 
Schematic/Rhetorical clause Coordination or subordination of clauses in a sentence 
relations 
Special sentence structure Scheme in figures of speech, constructions, and punctuation marks in a sentence 


图 12-10 机 器 理解 需要 的 技能 


一 般 来 说 ， 机 器 理解 涉及 处 理 许多 语言 模式 〈(Patterm) ， 如 词汇 、 句 法 或 高 级 语 篇 、 释 义 。 为 
了 对 这 些 特 征 进行 建 模 ， 根 据 方法 论 的 观点 ， 可 以 将 当前 的 方法 分 为 两 部 分 : 基于 特征 工程 的 方法 
和 基于 深度 学 习 的 方法 ， 接 下 来 我 们 对 此 将 做 一 些 曾 述 。 


12.3.2 ”基于 特征 工程 的 机 器 理解 方法 


目前 , 现 有 的 基于 特征 工程 的 方法 通常 是 将 文本 理解 任务 建 模 为 计算 给 定 问题 与 文档 或 段落 之 
间 语 义 相似 性 的 任务 。 这 些 方 法 试图 通过 基于 POS 标记 的 特征 、 依 存 分 析 特 征 、 共 指 、 引 用 等 浅 
层 语言 学 特征 对 句子 和 文档 的 语义 进行 建 模 。 基 于 不 同 的 特征 ， 可 以 捕获 不 同类 型 的 语义 ， 如 词汇 
层次 语义 、 语 篇 《有 时 也 叫 话语 ) 的 语义 等 。 

1. 词汇 匹配 

词汇 匹配 是 机 器 理解 任务 中 一 种 简单 而 有 效 的 方法 这 种 方法 通常 采用 一 种 基于 滑动 窗口 的 算 
法 ， 通 过 为 每 个 与 问题 文本 配对 的 答案 形成 词 袋 向 量 ， 并 对 这 些 候选 答案 进行 排名 Rank) 。 然 
后 根据 每 个 候选 项 与 故事 文本 的 重合 程度 对 它们 进行 评分 ,并 计算 出 得 分 最 高 的 候选 项 ,具体 来 说 ， 
这 个 算法 在 整个 故事 文本 上 滑动 一 个 窗口 , 该 窗口 的 大 小 等 于 问答 配对 中 的 单词 个 数 。 故事 文本 窗 
口 和 问答 配对 之 间 的 最 高 重 登 分 数 将 被 作为 答案 的 对 应 分 数 。 

史密斯 等 人 〈2015) 通过 多 次 取舍， 并 对 获得 的 分 数 求 和 来 对 每 个 答案 进行 评分 。 具 体 而 言 ， 
它们 从 窗口 大 小 2 开始 并 将 其 增加 到 30 CHI 30 个 切 分 词 ) ， 然 后 将 这 些 得 分 与 整个 故事 中 “问题 
-答案 ”配对 的 总 匹配 数量 结合 起 来 。 正 如 他 们 宣称 的 那样 ， 这 种 解决 方案 可 以 让 系统 捕捉 到 故事 
中 的 远 距 离 关 系 。MCTest 上 原 有 的 和 增强 的 滑动 窗口 词法 匹配 方法 的 比较 结果 如 表 12-1 所 示 。 


第 12 章 智能 问答 系统 | 379 


表 12-1 MCTest 上 词汇 匹配 方法 的 表现 情况 
滑动 窗口 Sliding window(%) 增强 型 滑动 窗口 Enhanced sliding window(%) 


MC160 69.43 72.65 


MC500 63.01 63.57 


2. 话语 ( Discourse , iB£S ) 关系 


可 答 一 个 问题 所 需 的 相关 信息 可 以 分 布 在 多 个 句子 中 , 理解 这 些 句 子 之 间 的 语义 关系 对 于 找到 
正确 答案 是 很 重要 的 。 以 图 12-11 为 例 ， 为 了 回答 “为 什么 莎 莉 穿 上 她 的 鞋子 ”的 问题 ,我们 需要 
推断 出 “她 穿 上 鞋子 ”和 “她 外 出 散步 ”之 间 存 在 因果 关系 。 

Sally liked going outside. She put on her shoes. She went outside to 

walk. [...] Missy the cat meowed to Sally. Sally waved to Missy the cat 


[...] Sally hears her name. "Sally, Sally, come home", Sally's mom calls 
out. Sally runs home to her Mom. Sally liked going outside. 


Why did Sally put on her shoes? 


A) To wave to Missy the cat 

B) To hear her name 

C) Because she wanted to go outside 
D) To come home 


图 12-11 一 个 需要 多 句 推理 的 问题 示例 
实际 上 , 一 些 先前 的 研究 成 果 已 经 证 明了 话语 关系 在 一 些 领域 应 用 中 存在 的 价值 , 如 问答 领域 
(Jansen 等 ，2014) 。Narasimhan 和 Barzilay 于 2015 年 提出 了 三 种 模型 ， 将 话语 关系 纳入 了 机 器 
理解 系统 中 。 
将 文档 中 的 句子 表示 为 z， 问 题 表示 为 q， 答 案 表示 为 a。 
模型 1: 


P(a,z|q;) - P(z1aj)P(alza;) (1235 
在 公式 (12.1) 中 , 我 们 将 联合 概率 定义 为 两 个 分 布 ( 有 的 称 为 两 个 分 量 概率 ) 的 乘积 。 其 中 ， 
第 一 分 布 是 问题 中 给 定 段落 里 句子 的 条 件 分 布 , 这 是 为 了 帮助 识别 出 回答 问题 所 需 的 句子 ; 第 二 个 
分 布 是 通过 给 定 问题 q 和 句子 z 来 对 选择 答案 的 条 件 概率 进行 建 模 。 我 们 可 以 使 用 指数 族 来 得 到 这 
些 分 量 概率 ， 即 P(z 19) x exp(eaga(q2) 和 P(z | a, q) x exp(ezgz(qa52)， 其 中 g 是 特征 向 量 ，6 代表 
关联 权重 值 (Associate Weight) 。 对 文档 中 所 有 句子 zm 求 和 ， 可 以 得 到 具体 答案 的 概率 qj: 
P(aj | qj) = ZnP(aj,zn 1 qj) (12:22 


通过 这 种 方式 可 以 将 目标 似 然 函 数 CLikelihood Objective Function? 写成 : 


L4,(0) =1og2j2nP(aizn | qj) (12) 


模型 2: 
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上 述 模型 只 能 一 次 考虑 一 个 支持 句子 〈 即 z) ， 当 然 ， 也 可 以 把 它 扩展 到 多 个 句子 。 我 们 对 给 
定 的 问题 使 用 多 个 相关 句子 ， 在 这 种 情况 下 ， 联 合 模型 的 定义 如 下 : 


P(a,2u221q) = PCza 19)P(zz | z,a)P(a | zu z2,q) (12.4) 


给 定 问题 g， 我 们 首先 预测 与 概率 P (zi| q) 相 关 的 第 一 个 句子 支持 句 z， 然 后 给 出 q fo z， 
接着 推理 出 第 二 个 句子 支持 句 z,， 最 后 答案 a 便 是 模型 预测 出 的 结果 。 


模型 3: 


该 模型 试图 直接 指定 问题 之 间 的 话语 关系 ,然后 利用 这 种 关系 对 文档 中 的 其 他 相关 句子 进行 推 
理 。 具 体 来 说 ， 模 型 3 添加 了 一 个 隐藏 变量 reR 来 表示 关系 类 型 ， 它 集成 了 将 问题 类 型 与 关系 类 
型 联系 在 一 起 的 特性 ， 还 利用 关系 类 型 来 计算 句子 之 间 的 词汇 和 句法 相似 性 。 

关系 集 R 由 以 下 关系 组 成 。 

CD 因果 关系 : 事件 的 原因 或 事实 的 原因 。 

(2) 时 态 : 事件 的 时 间 顺 序 。 

(3) WH: 主要 处 理 how-type 的 问题 。 

(4) 其 他 : 上 述 三 种 关系 以 外 的 关系 〈 包 括 非 关 系 non-relation) 。 

现在 ， 我 们 对 等 式 (12.4) 中 的 联合 概率 进行 修改 ， 加 入 关系 类 型 r， 结 果 如 下 : 


P(a,r,z,z;1q) = P(z, | g)P(rl q)P(zz | zr, q)P(alzy, zo r,q) (12.55 


其 中 ， 新 增 的 分 量 (Component) P(r|g) 是 取决 于 问题 的 关系 类 型 r 的 条 件 概率 。 因 此 ， 该 模 
型 可 以 学 习 诸如 对 应 于 因果 关系 的 why-questions。 下 面 我 们 给 出 这 三 种 模型 的 结果 情况 , 如 表 12-2 
所 示 。 


3k 12-2 MCTest 上 三 种 模型 的 准确 性 情况 


Model 1 60.07 70.58 


Model 2 60.07 66.17 


Model 3 60.07 68.38 


其 中 ，Single 是 指 只 需要 一 个 支持 句子 就 能 回答 的 问题 ， Multi 是 指 需要 多 个 句子 才能 回答 的 
问题 。 

3. 列 涵 答案 ( Answer-Entailing ) 结构 

以 前 的 一 些 NLP 研究 成 果 得 益 于 学 习 两 个 文本 片段 之 间 的 潜在 结构 。 例 如 ， 在 识别 文本 蕴涵 
CRTE) 时 ， 可 以 通过 它们 之 间 的 某 些 潜在 对 齐 从 其 前 提 中 推断 出 该 假设 。 在 机 器 理解 中 ,我 们 还 
可 以 将 这 种 蕴涵 (Entailing) 结构 信息 纳入 其 中 。 在 图 12-6 所 示 的 例子 中 ， 为 了 回答 第 二 个 问题 ， 
我 们 可 以 使 用 一 些 句 法 规则 将 问题 和 一 个 候选 答案 转换 成 语句 。 例 如 ， 候 选 答案 之 一 是 鲍鱼 
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Ccatfish) ， 我 们 将 其 与 相关 查询 组 合成 一 个 陈述 语句 : Alyssa EEEk Catfish) 。 把 这 个 
陈述 作为 一 个 假设 ， 文 档 作为 前 提 ， 我 们 可 以 推断 出 这 个 蕴涵 (Entailment〉 的 概率 。 此 时 ， 我 们 
可 以 给 出 该 例 推理 过 程 的 示意 图 ， 如 图 12-12 所 示 。 


Question: Answer: 


What did Alyssa eat at the restaurant ? catfish 


l| c i 


Statement: Alyssa eat catfish at the restaurant 


Document: ... The restaurant had a special on catfish ... Alyssa enjoyed the restaurant's special... 


图 12-12 MCTest 里 一 个 蕴涵 答案 结构 的 示例 图 


这 里 我 们 考虑 的 蕴涵 答案 结构 可 以 将 文本 中 的 多 个 句子 与 假设 对 齐 , 并 且 对 齐 文 本 中 的 句子 并 
不 限于 在 文本 中 连续 出 现 。 为 了 实现 这 种 不 连续 的 对 齐 ，Sachan A (20150 利用 了 文档 结构 ， 
尤其 是 他 们 借助 于 修辞 结构 理论 , 可 以 捕捉 到 事件 或 实体 在 句子 之 间 的 共 指 联系 。 他 们 使 用 潜在 结 
HI SVM (LSSVM) 专门 训练 了 一 种 最 大 边际 方式 (Max-Margin Fashion) ， 其 中 蕴涵 答案 的 结构 
是 潜在 的 。MC500 上 这 种 蕴涵 答案 模型 的 实验 结果 如 表 12-3 所 示 。 


3k 12-3 MC500 上 蕴涵 答案 模型 的 准确 率 


4. 基于 特征 工程 方法 所 面临 的 挑战 

基于 特征 工程 的 方法 是 处 理 机 器 理解 问题 的 一 种 有 效 而 明确 的 方法 , 它们 通常 利用 几 种 语言 特 
征 来 建 模 对 给 定 文档 和 问题 之 间 的 语义 关系 进行 建 模 , 然后 根据 这 些 特 征 进行 推理 , 该 过 程 清晰 且 
易于 理解 该 方法 中 出 现 的 问题 ， 但 是 这 些 语言 特征 有 时 需要 通过 经 验 或 启发 式 实验 来 获得 。 另 外 ， 
它们 严重 依赖 于 独立 的 语言 工具 ， 如 词性 标注 、 语 法 分 析 器 等 ， 这 可 能 会 给 系统 带 来 噪声 。 因 此 ， 
特征 工程 方法 通常 以 MCTest 等 机 器 理解 数据 为 研究 对 象 ， 而 对 于 一 些 大 规模 的 机 器 理解 数据 集 ， 
如 SQuAD 和 bAbi, 现 有 的 基于 特征 工程 的 方法 很 难 从 文本 中 进行 设计 并 提取 出 有 效 的 特征 。 近年 
来 , 随 着 深度 学 习 在 计算 机 视觉 和 语音 识别 方面 取得 的 巨大 成 功 , 越 来 越 多 的 研究 人 员 开 始 关 注 基 
于 深度 学 习 的 机 器 理解 技术 。 


12.3.8 ”机 器 理解 中 的 深度 学 习 方 法 


对 于 机 器 理解 任务 , 我 们 将 介绍 几 种 流行 的 基于 不 同 数据 集 的 深度 学 习 方 法 。 现在 给 定 一 个 文 
档 d 和 一 个 问题 g， 对 选择 答案 a 的 概率 情况 可 以 进行 如 下 建 模 : 


P(ald,q) x exp(W(a)g(d, q)) (12.6) 
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其 中 ，W(a) 表 示 管 案 候 选项 a 的 嵌入 ，g(d.9) 表 示 给 定 问题 q 下 文档 d 的 嵌入 。 关 键 的 部 分 是 
计算 函数 g(d,q), 可 以 应 用 若干 深度 神经 网 络 , 如 RNN. LSTM 和 记忆 网 络 (Weston 等 , 2015b) o 


1. 基于 LSTM 的 编码 器 


长 短期 记忆 网 络 (LSTM) 已 被 证 明 能 够 有 效 地 将 序列 数据 建 模 为 向 量 .因此 , 为 了 对 函数 g(d,q) 
进行 建 模 ，Hermann A (20150 将 相关 文档 一 次 性 输入 到 基于 LSTM 的 编码 器 中 。 问 题 q 也 在 
分 隔 符 之 后 被 提供 给 该 编码 器 。 这 样 给 定 文档 d 和 问题 q 的 配对 可 以 是 一 个 很 长 的 单 序列 ， 如 图 


12-13 所 示 。 
"HB 日 日 日 “日 \ 
-日 日 日 日 日 日 / 
q 


d 
图 12-13 ”给 定 文档 d 和 问题 q 的 配对 可 以 是 一 个 很 长 的 单 序列 


2. 双向 注意 力 编码 器 


因为 单 向 LSTM 很 难 在 长 距离 上 传播 依赖 关系 ， 所 以 信息 在 从 一 个 组 件 到 另 一 个 组 件 的 传输 
过 程 中 会 慢 慢 衰减 ， 进 而 使 得 文档 的 语义 不 能 被 准确 地 编码 。 因此 , 越 来 越 多 的 研究 人 员 采 用 双向 
LSTM 模型 对 序列 数据 进行 编码 。 另外, 文档 d 中 并 非 所 有 的 句子 或 上 下 文 都 与 给 定 的 问题 q 有 关 
联 。 例如， 这 里 有 一 个 文档 d， 其 内 容 是 “迈克 尔 。 乔 丹 在 1993-94 赛季 开始 之 前 突然 从 芝加哥 公 
牛 队 退役 , 去 追求 自己 的 棒球 职业 生涯 ”。 当 问题 q 是 “迈克 尔 。 乔 丹 何 时 从 NBA 退役 的 ? ”时 ， 
文档 d 中 的 关注 点 应 该 是 “在 1993-94 赛季 开始 之 前 ”。 当 问题 q 是 “迈克 尔 乔丹 从 NBA 退役 后 
参加 了 哪 项 运动 ? ”时 , 文档 d 中 的 关注 点 应 该 是 “追求 棒球 生涯 ”。 也 就 是 说 ， 在 处 理 不 同 的 问 
题 时 , 我 们 应 该 对 文档 d 中 不 同 部 分 给 予 不 同 的 关注 。 因 此 , 将 注意 力 机 制 引入 深度 神经 网 络 也 是 
很 自然 的 事情 。Chen A (2016) 提出 了 一 种 具有 注意 力 机 制 的 双向 编码 模型 (BiDEA) ， 该 模 
型 在 CNN/Daily Mail 数据 集 上 取得 了 良好 的 性 能 。 

关于 该 模型 的 结构 其 实 是 非常 直观 的 ， 其 预测 答案 的 过 程 主要 包括 以 下 三 个 步骤 。 


COD 编码 : 在 所 有 词 被 映射 到 d 维 向 量 之 后 , 段落 p(d) 和 查询 q 可 以 被 分 别 表示 为 pt pa, Pm 
和 qu gz ..,q,. 因此， 段落 p 的 上 下 文 信息 可 以 通过 下 面 的 公式 计算 得 到 。 


< 一 一 一 
hi = LSTM(hii, pi) i =1,...,m 
= LT MO poi 9m,...,1 


AX 一 e 
Di = concat(hi;, hi). 
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同时 ， 问 题 可 以 以 相同 的 方式 由 另 一 个 LSTM 层 嵌 入 到 q〈 单 个 向 量 ) 中 。 


(2) 注意 力 : pi 中 的 所 有 文本 信息 可 以 通过 以 下 方式 组 合 进 输出 向 量 0 中 。 


a; = softmax;q" Ws, 


0= an 
i 


在 上 述 等 式 中 ，Ws e 了 wx 用 于 测量 问题 q 与 段落 pi 中 单词 之 间 的 相似 性 。 
GO 预测 ， 预 测 答案 a 的 计算 方法 如 下 。 


a = argmaX(sepng)Wa O 


其 中 ,，E 是 嵌入 矩阵 ，Wi 是 输出 0 和 候选 词 a 之 间 的 测量 矩阵 。 


虽然 上 述 模型 的 计算 非常 简单 ， 但 是 在 数据 集 CNN/Daily Mail 上 却 获 得 了 非常 好 的 性 能 表现 
(实验 结果 如 表 12-4 所 示 ) 。 根 据 Chen SA (2016) 的 分 析 ， 其 提出 的 模型 的 有 效 性 是 由 于 : © 
CNN/Daily Mail 的 推理 水 平 仍然 很 简单 ， 可 以 用 一 个 简单 的 模型 来 处 理 ; @ 各 类 模型 在 CNN/Daily 
Mail 上 已 经 达到 了 性 能 上 限 ， 甚 至 可 以 通过 信息 检索 系统 对 该 语料库 很 好 地 做 处 理 。 


表 12-4 BIDEA 等 模型 在 CNN/Daily mail 上 的 实验 结果 


Attentive reader (Hermann 等 ，2015) 
MemNN (Sukhbaatar 等 ，2015) 

AS reader (Hermann 等 ，2015) 
Stanford AR (Chen 等 ，2016) 

DER network (Kobayashi 等 ，2016) 


Iterative attention (Sordoni 等 ，2016) 


Daily mail 


EpiReader (Trischler 等 ，2016) 


GAReader (Dhingra 等 ，2016) 


AoA reader (Cui 等 ，2017) 


ReasoNet (Shen 等 ，2017) 
BiDAF (Seo 等 ，2016) 


BiDEA (Chen 等 ，2016) 


此 外 ， 为 了 以 不 同 颗粒 度 表示 上 下 文 并 实现 查询 感知 的 上 下 文 表示 ，Seo 等 人 (2016) 采用 多 
级 递 阶 过 程 提出 了 用 于 机 器 理解 任务 的 双向 注意 力 网 络 (BiDAF) 。 


如 图 12-14 所 示 ， 模 型 主要 由 以 


6 层 组 成 。 
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字符 嵌入 层 : 字符 级 别 的 CNN， 可 以 将 单词 中 的 字符 映射 到 连续 向 量 。 

词 谱 入 层 : 预先 训练 的 词 向 量 矩 阵 。 

HERAA: 双向 LSTM 层 ， 可 以 捕获 单词 的 上 下 文 信息 。 

注意 力 层 : 相似 性 矩阵 S, 测量 来 自 两 个 方向 的 上 下 文 和 查询 词 之 间 的 相似 性 ， 即 上 下 文 
到 查询 和 查询 到 上 下 文 。 

e ARE: 包含 所 有 单词 上 下 文 信息 的 两 层 双 向 LSTM. 

e 输出 层 : 两 个 逻辑 回归 模型 ， 分别 捕获 起 始 索 引 和 结束 索引 。 


Dense+ WA LSTM+ 
Softmax Softmax 


Output Layer 


Modeling Layer 


Attention Flow Layer 


Hidden State Sequence. 


Phrase Embedding Layer 


Word Embedding Layer 


Char Embedding Layer [i] [| 
12-14 ”双向 注意 力 模型 图 


如 表 12-5 所 示 ，SQUAD 上 的 实验 结果 表明 ，BiDAEF 的 方法 带 来 了 性 能 的 提高 ， 这 可 能 是 由 
于 BiDAF 在 层级 中 具有 发 现 支持 证 据 的 开始 点 和 结束 点 的 能 力 所 引 起 的 。 


表 12-5 BIDAF 等 模型 在 SQUAD 测试 集 上 的 实验 结 


Logistic regression baseline (Rajpurkar 等 ，2016) 


Dynamic chunk reader (Yu 等 ，2016) 


Fine-grained gating (Yang 等 ，2016) 


Match LSTM (Wang 和 Jiang, 2016) 77.0 


Multi-perspective matching (Wang 等 ，2016) 77.2 


Dynamic coattention networks (Xiong 等 ，2016) 80.4 


R-Net (Wang 等 ，2017) 79.7 


BiDAF (Seo 等 ，2016) 68.0 77.3 73.3 81.1 
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3. 记忆 网 络 ( Memory Network ) 


Weston 等 人 于 2015 年 提出 了 记忆 网 络 ， 用 于 解决 序列 神经 网 络 中 信息 的 衰减 问题 。 它 还 可 以 
用 推理 组 件 和 长 期 记忆 组 件 〈 实 际 上 是 一 个 矩阵 或 张 量 ， 它 的 名 字 就 是 从 这 里 来 的 ) 进行 推理 。 总 
的 来 说 ， 它 包括 以 下 4 个 主要 组 成 部 分 。 


I (输入 特征 映射 ) 将 输入 向 量 转换 为 内 部 特征 表示 。 

G ( 泛 化 ) 根据 新 的 输入 更 新 现 有 记忆 。 

O (输出 特征 映射 ) 根据 新 的 输入 和 当前 记忆 状态 计算 新 的 输出 。 
€ 及 (响应 ) 将 输出 转换 为 所 需要 的 响应 格式 。 


图 12-15 给 出 了 MemNN CMemory Network) 的 示意 图 。 记 忆 网 络 的 一 种 重要 形式 是 端 到 端 记 
忆 网 络 ， 我 们 将 其 缩写 为 MemN2N。MemN2N 的 一 个 优点 是 可 以 以 端 到 端的 方式 进行 训练 ， 这 意 
味 着 其 需要 较 少 的 监督 信息 ， 并 且 更 普遍 地 适用 于 真实 场景 。 以 下 等 式 分 别 是 I、G、O 和 及 中 的 
计算 情况 : 


€ Ip; -Softmax(ur,m;) ,其 中 mi=Axi (Xi 是 输入 句子 的 谈 入 向 量 ) ; u= Bq (q 是 输入 
查询 ) 。 

© G 在 MemN2N 中 ， 记 忆 尚 未 被 更 新 。 

€ 0o=Yipici， 其 中 ci = Cxi。 

€ Ra= Softmax(W(o + u)). 

另外 ， 通 过 以 下 方式 很 容易 将 网 络 层 插入 到 MEMN2NS 中 。 

e 第 (k+1) 层 的 uu 可 以 计算 为 ut+D = uk + ok, 

e 每 层 都 有 自己 的 AK 和 Ck。 

e ”预测 可 以 通过 4 = Softmax(WuGe+D) 来 计算 。 


Answer a 


Output 


Question q 


12-15 用 于 bAbI 任务 的 记忆 网 络 示意 图 
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MemN2N 最 初 应 用 于 bAbI 任务 中 的 20 个 任务 。 最 佳 的 MemN2N 性 能 接近 于 监督 模型 , 位 置 
编码 (PE) 表示 优 于 词 袋 (BoW) 模型 ， 线 性 (LS) 训练 有 助 于 避免 局 部 极 小 值 ， 联 合 训练 有 助 
于 完成 所 有 任务 。 

除了 记忆 神经 网 络 ， 值 得 注意 的 是 ，G 中 的 计算 实际 上 是 一 种 注意 力 机 制 。 而 记忆 网 络 是 第 一 
个 将 外 部 知识 保存 在 指定 矩阵 中 的 模型 , 它 对 自然 语言 处 理 的 各 种 深层 模型 中 的 记忆 机 制 的 发 展 有 
着 重要 影响 。 


124 利用 TensorFlow 实现 问答 任务 


问答 (QA) 系统 是 一 个 旨 在 为 回答 自然 语言 提出 的 问题 而 设计 的 系统 。 一 些 QA 系统 从 诸如 
文本 或 图 像 之 类 的 信息 源 中 获取 信息 以 回答 具体 的 问题 。 这 些 依赖 “信息 来 源 ” 的 系统 可 以 分 为 两 
个 主要 子 类 别 : 开放 领域 , 它 需 要 回答 的 问题 几乎 可 以 是 里 面 的 任何 选项 ,不 限于 特定 领域 ; 封闭 
领域 , 它 涉及 的 问题 具有 一 些 特定 的 限制 ， 因为 它们 是 与 一 些 预定 义 的 信息 源 相关 (如 提供 的 上 下 
文 或 类 似 于 医学 等 特定 领域 ) 。 

我 们 将 创建 一 个 基于 神经 网 络 的 QA 系统 ， 并 使 用 封闭 领域 的 信息 来 源 。 为 了 做 到 这 一 点 ， 我 
们 使 用 Ankit Kumar 等 人 在 其 论文 《4sK Me Anything: Dynamic Memory Networks for Natural 
Language Processing》 中 介绍 的 动态 记忆 网 络 (Dynamic Memory Network, DMN) 的 简化 版 本 ( 读 
者 也 可 以 自行 查阅 ， 笔 者 在 https://arxiv.org/abs/1506.07285 上 获取 到 该 文 ) 。 


124.1 bAbl 数据 集 


对 于 这 个 项 目 ， 我 们 使 用 Facebook 创建 的 bAbI 数据 集 ， 与 所 有 QA 数据 集 一 样 ， 此 数据 集 包 含 
了 我 们 需要 的 所 有 问题 信息 。bAbI 数据 集中 的 所 有 问题 都 有 一 个 与 之 相关 的 上 下 文 ， 这 是 一 个 句子 序 
列 ， 以 便 能 够 保证 回答 问题 时 存 有 所 必需 的 详细 信息 。 此 外 ， 数 据 集 还 为 每 个 问题 提供 了 正确 答案 。 

根据 回答 问题 所 需 的 方法 ，bAbI 数据 集中 的 问题 被 划分 为 20 个 不 同 的 子 任务 。 每 个 子 任务 都 
有 自己 的 一 套 训练 问题 集 和 一 套 单独 的 测试 问题 集 , 这 些 子 任务 测试 各 种 标准 的 自然 语言 处 理 能 力 ， 
包括 时 间 推 理 和 归纳 逻辑 。 为 了 更 好 地 了 解 这 一 点 , 我 们 来 看 一 个 QA 系统 将 要 回答 问题 的 具体 示 
例 ， 如 图 12-16 所 示 。 


Context 


Fred picked up the apple there. Bill travelled to the kitchen. Bill got the milk there. Jeff went to the kitchen. 
Bill passed the milk to Jeff. Jeff handed the milk to Bill. 


Question Answer 


Who did Jeff give the milk to? Bill 


E 12-16 bAbI 数据 集 示 例 图 (图 片 来 源 : Steven Hewitt) 
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上 图 中 灰色 部 分 为 上 下 文 〈 或 语 境 ) ， 无 背景 颜色 的 为 问题 及 其 对 应 答案 (斜体 为 答案 ) 。 

此 任务 测试 神经 网 络 对 于 这 三 个 对 象 之 间 内 在 关系 所 涉及 相关 运算 或 操作 的 理解 .从 语法 上 讲 ， 
该 任务 将 测试 系统 是 否 能 够 区 分 主语 、 直 接 宾语 和 间接 宾语 。 在 本 例 中 ， 问 题 询 问 的 是 最 后 一 句 中 
的 间接 宾语 一 一 谁 是 那个 从 Jeff 手 里 接收 牛奶 的 人 。 神 经 网 络 必须 对 第 五 句 中 所 涉及 的 对 象 做 出 精 
准 区 分 ， 其 中 B 记 是 主语 ，Je 仔 是 间接 宾语 ， 而 在 第 六 句 中 ，Je 企 则 是 主语 。 当 然 ， 我 们 的 神经 网 
络 并 没有 收 到 任何 关于 主语 或 宾语 是 什么 的 明确 训练 , 它 必 须 从 训练 数据 的 示例 中 推断 出 这 种 合理 
的 理解 。 

系统 必须 解决 的 另 一 个 小 问题 是 理解 在 整个 数据 集中 使 用 的 各 种 同义词 , 如 Je 任 把 牛奶 “ 递 给 
(handed) ”Bil， 但 是 Je 企 也 可 以 同样 容易 地 “给 (gave) ”或 “ 交 给 (passed) ”给 Bill. Pit, 
在 这 点 上 神经 网 络 也 不 必 从 头 开 始 , 因为 它 可 以 从 词 向 量 那里 得 到 一 些 帮 助 。 由 于 神经 网 络 中 存在 
大 量 的 词 向 量 , 这 些 词 向 量 可 以 给 出 对 应 词 的 定义 及 其 与 其 他 词 之 间 关 系 的 信息 ,而 相似 词 具有 相 
似 的 向 量化 表示 ， 这 就 意味 着 神经 网 络 可 以 将 它们 视 为 几乎 相同 的 词 。 对 于 词 向 量化 ,我 们 将 使 用 
Stanford 的 全 局 词 向 量 表 示 CGloVe) 。 

许多 任务 都 有 一 个 限制 , 那 就 是 强制 上 下 文 包 含 用 于 回答 问题 的 确切 文字 , 如 在 我 们 的 示例 中 
就 可 以 在 上 下 文 找到 答案 “B 记 ”。 我 们 可 以 将 这 一 限制 当 作 优势 ， 因 为 可 以 在 上 下 文中 搜索 与 最 
终结 果 最 接近 的 词 。 


124.2 分析 GloVe 并 处 理 未 知 令 牌 


这 里 我 们 给 出 一 个 sentence2sequence, 它 是 一 个 根据 GloVe 定义 的 映射 并 将 字符 串 转换 为 矩阵 
的 函数 。 该 函数 将 字符 串 切 分 为 多 个 令 牌 (Token， 这 个 过 程 叫 Tokenization， 即 切 分 词 或 词 条 ) ， 
这 些 比较 小 的 字符 串 相当 于 标点 符号 、 单词 或 单词 的 一 部 分 。 例如 , 把 “Bill traveled to the kitchen." 
切 分 为 6 个 令 牌 ， 前 5 个 令 牌 对 应 于 单词 ， 最 后 一 个 令 牌 对 应 于 表示 句 末 的 “.”。 每 个 令 牌 都 被 
单独 地 向 量化 ， 从 而 产生 对 应 于 每 个 句子 的 向 量 列表 ， 如 图 12-17 所 示 。 


Vectorization 


OS ORTL 
-1 02 0.9 


01505107 
0. 1 16 . 
1 
0 


"Bill traveled to the kitchen." 


“kitchen” 


图 12-17 将 句子 转换 为 多 个 向 量 的 过 程 (图片 来 源 : Steven Hewitt) 
在 bAbI 的 任务 中 ， 系 统 会 遇 到 一 些 GloVe 单词 向 量化 中 没有 的 单词 ， 为 了 让 神经 网 络 能 够 处 
理 这 些 未 知 的 词 条 ， 我 们 需要 为 这 些 单 词 维护 一 个 的 向 量化 状态 。 通 常 的 做 法 是 用 单个 <UNK> 向 
量 替 换 所 有 未 知 令 牌 , 但 这 不 总 是 有 效 的 。 相反, 我 们 可 以 使 用 随机 化 方法 来 为 每 个 未 知 令 牌 创建 
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一 个 新 的 向 量 。 


当 第 一 次 遇 到 一 个 新 的 未 知 令 牌 时 , 我 们 简单 地 从 原始 GloVe 向 量化 的 分 布 (近似 高 斯 分 布 》 


中 获取 一 个 新 的 词 向 量 ， 并 将 该 向 量 添加 到 GloVe 词 映射 上 。 为 了 收集 分 布 超 参数 ， 可 以 使 用 
Numpy 中 的 函数 来 自动 计算 方差 和 平均 值 。 


+ 反 序 列 化 Glove 向 量 
glove wordmap = {} 
with open(glove vectors file, "r", encoding-"utf8") as glove: 
for line in glove: 
name, vector = tuple(line.split("", 1)) 


glove wordmap[name] = np.fromstring(vector, sep-"") 


wvecs = [] 

for item in glove wordmap.items(): 
wvecs.append (item[1]) 

S = np.vstack(wvecs) 


# 收集 分 布 超 参数 

v = np.var(s,0) 

m = np.mean(s,0) 

RS = np.random.RandomsState () 


# 而 每 当 我 们 需要 时 ，fil11_unk 会 提供 一 个 新 的 词 向 量 


def fill unk(unk): 
global glove wordmap 
glove wordmap[unk] = RS.multivariate normal (m,np.diag(v)) 


return glove wordmap[unk] 


124.3 已 知 或 未 知 的 数据 部 分 


其 实 bAbI 任务 中 的 词汇 量 是 有 限 的 ， 这 就 需要 神经 网 络 学 好 单词 之 间 的 关系 ， 即 使 不 知道 某 


些 单词 的 含义 ， 为 了 加 快 学 习 速 度 ， 我 们 也 应 该 尽 可 能 地 选择 具有 内 在 意义 的 向 量 。 为 此 ,我 们 使 


用 


贪 禁 搜索 方法 来 查找 存在 于 斯 坦 福 GLoVe 词 向 量 数据 集中 的 单词 ， 如 果 该 单词 不 存在 ， 则 


个 未 知 的、 随机 创建 的 词 向 量 表 示 来 替换 整个 单词 。 


在 这 个 词 向 量化 模型 下 ， 我 们 可 以 定义 一 个 新 的 sentence2sequence。 


def sentence2sequence (sentence): 


- 将 输入 段落 转换 为 (m, d) 矩阵 , 其 中 n 是 句子 中 的 词 条 数量 , a 是 每 个 词 向 量 的 维 数 . 
这 里 不 需要 使 用 TensorFlow, 因为 只 是 简单 地 将 句子 转换 为 基于 映射 的 序列 不 需要 TensorFlow 
提供 计算 支持 , 普通 Python 模块 足以 完成 此 任务 。 
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tokens = sentence.strip('"(),-').1ower().split("") 
rows = [] 
words - [] 
# 对 令 牌 执行 贪 禁 搜索 
for token in tokens: 
i = len (token) 
while len (token) > 0: 
word = token[:i] 
if word in glove_wordmap: 
rows.append(glove wordmap[word]) 
words.append (word) 
token - token[i:] 


i - len(token) 


continue 
else: 
i = i-1 
if i = 0: 
* oov 单词 


rows.append(fill unk(token)) 
words.append (token) 
break 

return np.array(rows), words 


现在 我 们 可 以 将 每 个 问题 所 需 的 所 有 数据 打包 在 一 起 ， 包 括 上 下 文 、 问 题 和 答案 的 向 量 。 在 
bAbI 中 , 上 下 文 被 定义 成 了 含有 序列 号 的 句子 , 使 用 反 序 列 化 (contextualize) 函数 来 完成 该 任务 。 
问题 和 答案 在 同一 行 ， 用 制 表 符 分 隔 开 ， 所 以 我 们 可 以 利用 制 表 符 来 标记 某 一 行 是 否 指向 了 问题 。 
当 编 号 重 置 时 ， 未 来 的 问题 将 引用 新 的 上 下 文 〈 注 意 ， 通 常 一 个 上 下 文 对 应 多 个 问题 )》。 答 案 还 包 
含 我 们 已 保留 但 不 需要 使 用 的 另 一 条 信息 : 参考 顺序 , 与 回答 问题 所 需 的 句子 相对 应 的 数字 。 在 我 
们 的 系统 中 ， 神 经 网 络 将 自学 需要 哪些 句子 来 回答 问题 。 


def contextualize(set file): 
读 入 问题 数据 集 并 构建 问题 + 答案 - > 上 下 文集 。 
输出 是 一 个 数据 点 列表 ， 每 个 数据 点 都 是 一 个 包含 以 下 内 容 的 7 元 素 元 组 : 
上 下 文中 的 句子 以 向 量化 形式 出 现 
上 下 文中 作为 字符 串 词 条 列表 的 句子 
向 量化 形式 的 问题 
作为 字符 串 词 条 列表 的 问题 
向 量化 形式 的 答案 
作为 字符 串 词 条 列表 的 答案 
用 于 支持 当前 未 使 用 的 语句 的 数字 列表 
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data = [] 
context - [] 
with open(set file, "r", encoding-"utf8") as train: 
for line in train: 
1, ine = tuple(line.split("", 1)) 


+ 将 行 号 从 所 指向 的 句子 中 分 离 出 来 


SEI is "IT. 
* 因为 新 的 上 下 文 总 是 从 1 开始 ， 所 以 这 是 一 个 重 置 上 下 文 的 信号 
context = [] 


qf "XC" dn dine: 
# 制 表 符 是 问题 和 答案 之 间 的 分 隔 符 ， 在 上 下 文 语句 中 不 存在 
question, answer, support = tuple (ine.split("\t")) 
data.append((tuple (zip (*context))-* 
sentence2sequence (question) + 
sentence2sequence (answer) + 
([int(s) for s in support.split()],))) 
* 多 个 问题 可 能 涉及 相同 的 上 下 文 ， 所 以 我 们 不 重 置 它 
else: 
8 上 下 文句 予 
context.append (sentence2sequence (ine[:-1])) 
return data 
train data = contextualize(train set post file) 


test data - contextualize(test set post file) 


124.4 ”定义 超 参 数 


此 时 ,我 们 已 经 充分 准备 好 了 训练 数据 和 测试 数据 ,下 一 个 任务 是 构建 用 于 理解 数据 的 神经 网 
络 。 我 们 先 从 清除 TensorFlow 默认 计算 图 开始 ， 如 果 想 更 改 一 些 东 西 ， 就 可 以 选择 再 次 运行 神经 
网 络 。 


tf.reset default graph() 

由 于 这 是 实际 神经 网 络 的 开始 ， 因 此 还 要 定义 网 络 所 需 的 所 有 常量 ， 称 为 “ 超 参 数 ”， 它 们 定 
义 了 网 络 的 “外 观 〈 结 构 ) ”和 训练 方式 。 

# 用 于 存储 在 网 络 中 循环 层 之 间 传 递 的 数据 的 维 数 


recurrent cell size = 128 


+ 词 向 量 中 的 维 数 
D = 50 


# 神经 网 络 学 习 的 速率 。 若 速率 过 高 的 话 ， 则 可 能 会 遇 到 数值 不 稳定 或 其 他 问题 


第 12 章 智能 问答 系统 | 391 


learning rate = 0.005 
4 dropout 概率 
input p, output p - 0.5, 0.5 


+ 一 次 训练 问题 的 个 数 
batch size = 128 


# 情景 记忆 的 传递 次 数 


passes = 4 


# 前 馈 层 大 小 : 用 于 存储 从 前 馈 层 传递 的 数据 的 维 数 
ff hidden size = 256 


# 奖励 情景 记忆 的 稀疏 性 ， 但 会 使 训练 变 慢 ， 不 要 让 它 大 于 learning rate 
weight decay = 0.00000001 


# 每 次 训练 时 神经 网 络 训练 问题 的 个 数 ， 有 些 问 题 会 被 多 次 计算 


training iterations count = 400000 


# 在 每 次 验证 之 前 需要 进行 训练 的 迭代 次 数 
display step = 100 


124.5 ”神经 网 络 结构 部 分 


神经 网 络 结构 被 松散 地 划分 为 4 个 模块 ， 在 2015 年 Ankit Kumar 等 人 撰写 的 文章 《4sk Me 
Anything: Dynamic Memory Networks for Natural Language Processing》 中 给 出 了 相应 的 说 明 。 

由 于 神经 网 络 设计 了 一 个 循环 层 , 其 能 够 基于 文本 里 的 其 他 信息 被 动态 地 定义 , 因此 被 称 为 动 
态 记 忆 网 络 (DMN) 。DMN 是 基于 对 人 类 如 何 回 答 阅 读 理解 型 问题 的 理解 。 首 先 ， 人 类 会 阅读 上 
下 文 并 在 其 中 建立 对 相关 事实 的 记忆 , 记 住 这 些 事 实 后 再 去 阅读 问题 并 重新 检查 上 下 文 , 特别 是 寻 
找 与 问题 相关 的 一 些 答案 的 信息 ， 并 将 问题 与 每 个 事实 进行 比 对 。 

有 时 一 个 事实 会 引导 我 们 走向 另 一 个 事实 。 在 bAbI 数据 集中 ,神经 网 络 希望 找到 足球 的 位 置 ， 
它 会 先 搜索 关于 足球 的 句子 ， 并 发 现 John 是 最 后 一 个 接触 足球 的 人 。 然 后 搜索 关于 John 的 句子 ， 
发 现 John 曾经 在 卧室 和 走廊 里 待 过 。 它 一 旦 意识 到 John 在 走廊 上 是 最 后 一 个 人 ,就 可 以 回答 这 个 
问题 并 自信 地 说 足球 在 走廊 上 ， 如 图 12-18 所 示 。 

在 每 一 集 或 片段 中 ， 神 经 网 络 都 会 关注 新 的 事实 ， 以 便 能 够 找 出 正确 答案 。Kumar 注意 到 神 
经 网 络 错误 地 将 一 些 权重 值 放 在 了 第 2 句 中 ， 这 是 有 原因 的 ， 因 为 John 已 经 在 那里 了 ， 尽 管 当时 
他 没有 足球 (Ankit Kumar 等 ，2015) . 
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Episodic Memory > " è à š 4 j 3 Answer module 
Module + x : 4 4 d í 


Input Module s, 


图 12-18 ”神经 网 络 内 部 4 个 模块 被 组 合 在 一 起 工作 以 回答 bAbI 数据 集中 的 问题 


124.6 输入 部 分 


输入 模块 是 动态 记忆 网 络 4 个 模块 中 第 一 个 给 出 答案 的 , 它 包 含 一 个 简单 的 输入 , 带 有 一 个 门 
控 循环 单元 或 GRU (TensorFlow 的 萎 contrib nn.GRUCell) 的 输入 管道 并 以 此 来 收集 相关 证 据 。 每 
一 个 片段 的 证 据 或 事实 , 在 上 下 文中 都 对 应 一 个 句子 , 并 且 由 该 时 间 步 长 的 输出 表示 ,这 需要 一 些 
3E TensorFlow 的 预 处 理 。 因 此 ， 我 们 可 以 收集 句子 末尾 的 位 置 并 将 其 传递 给 TensorFlow， 以 便 在 
后 面 的 模块 中 使 用 。 

我 们 可 以 利用 TensorFlow 中 的 gather_nd0 函 数 对 这 些 数 据 进 行 处 理 ， 并 使 用 这 些 被 处 理 过 的 
数据 来 选择 相应 的 输出 (gather_nd0 函 数 是 一 个 非常 有 用 的 工具 〉。 

* cs: 从 上 下 文 收集 的 事实 


cs = tf.gather nd(input module outputs, input sentence endings) 


124.7 ”问题 部 分 


问题 模块 是 第 二 个 模块 ， 也 可 以 说 是 最 简单 的 模块 。 它 包括 另 一 个 GRU 的 管道 。 这 次 是 在 处 
理 问 题 的 文本 上 而 不 是 寻找 一 些 证 据 , 我 们 可 以 简单 地 进 到 结尾 状态 , 因为 数据 集 保证 问题 的 长 度 
是 一 个 句子 。 


12.4.8 情景 记忆 部 分 


第 三 个 模块 是 情景 记忆 模块 ， 就 是 事情 开始 变 得 有 意义 的 地 方 。 它 使 用 注意 力 执行 多 个 过 程 ， 
每 个 过 程 都 包含 多 个 GRU 并 对 输入 进行 迭代 。 每 个 过 程 中 的 迭代 都 是 基于 当时 对 相应 事实 的 关注 
程度 并 对 当前 记忆 的 权重 进行 更 新 。 
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124.9 注意 力 部 分 


神经 网 络 中 的 注意 力 最 初 是 为 了 进行 图 像 分 析 而 设计 的 ,特别 是 对 于 图 像 的 某 些 部 分 信息 远 比 
其 他 部 分 的 信息 与 分 析 主 题 更 具 相关 性 的 情况 。 在 执行 任务 的 过 程 中 , 神经 网 络 使 用 注意 力 能 够 在 
深入 分 析 时 确定 所 需 对 象 的 最 佳 位 置 , 如 查找 图 像 中 目标 对 象 的 位 置 、 跟 踪 在 图 像 之 间 移 动 的 对 象 、 
面部 识别 或 其 他 需要 在 图 像 中 寻找 最 相关 信息 的 任务 。 

这 里 的 主要 问题 是 注意 力 或 至 少 硬 性 注意 力 (Hard Attention， 只 关注 一 个 输入 位 置 ) 很 难 被 
优化 。 与 大 多 数 神经 网 络 一 样 ,我 们 的 优化 方案 是 计算 损失 函数 相对 于 输入 和 权重 的 导数 ， 由 于 其 
二 进 制 的 性 质 , 硬性 注意 力 根 本 不 可 微分 。 因 此 ,我们 不 得 不 使 用 基于 实数 的 变 体 ,被 称 为 软 性 注 
意 力 (Soft Attention) ， 它 对 所 有 输入 的 位 置 使 用 某 种 形式 的 权重 来 表明 相应 的 注意 程度 。 而 且 ， 
这 里 涉及 的 权重 是 完全 可 微分 的 , 可 以 被 正常 训练 。 虽然 学 习 硬 性 注意 力也 是 可 以 的 , 但 它 比 软 性 
注意 力 更 难以 实现 且 有 时 表现 更 差 , 因此 这 里 我 们 使 用 软 性 注意 力 . 不 用 担心 对 导数 函数 进行 编码 ， 
TensorFlow 的 优化 方案 已 经 为 我 们 做 了 相关 处 理 。 

在 这 个 模型 中 ,我 们 通过 构造 每 个 事实 、 当 前 记忆 和 原始 问题 之 间 的 相似 性 度量 来 计算 注意 力 。 
注意 , 这 里 的 计算 方法 与 普通 注意 力 的 计算 方法 是 不 同 的 , 普通 注意 力 只 构造 事实 与 当前 记忆 之 间 
的 相似 性 度量 。 我 们 将 结果 推送 进 一 个 两 层 的 前 馈 神经 网 络 来 获得 每 个 事实 的 注意 力 常数 , 然后 对 
输入 的 事实 使 用 一 个 GRU 来 赋予 权重 (通过 相应 的 注意 力 常数 赋予 权重 ), 进而 修改 当前 的 记忆 。 
为 了 避免 在 上 下 文 短 于 矩阵 的 全 长 时 向 记忆 中 添加 错误 的 信息 , 我 们 创建 了 一 个 掩 码 层 ， 当 事实 不 
存在 的 情况 下 ， 模 型 不 必 在 意 它 〈 即 保留 相同 的 记忆 ) 。 

另 一 个 值得 注意 的 方面 是 , 注意 力 掩 码 层 几 乎 总 是 围绕 着 神经 网 络 的 一 个 层 对 表示 层 进 行 封 包 。 
对 于 图 像 而 言 ,该 封包 最 有 可 能 发 生 在 卷 积 层 上 (最 有 可 能 是 直接 映射 到 图 像 的 位 置 )。 而 对 于 自 
然 语言 来 说 , 该 封包 最 有 可 能 发 生 在 循环 层 上 。 虽然 将 注意 力 集中 在 一 个 前 馈 层 上 , 在 技术 上 是 可 
行 的 ， 但 是 通常 没有 什么 用 处 一 一 至 少 在 那些 后 续 的 前 馈 神 经 网 络 层 上 难以 模拟 这 种 方式 。 


def attention(c, mem, existing facts): 


自 定义 注意 力 机 制 


c: 张 量 [batch_size, maximum sentence_count，recurrent_cell size] 包 含 上 下 文中 的 


所 有 事实 


mem: 包含 当前 记忆 的 张 量 [batch_size, maximum sentence count, recurrent cell size]. 


为 了 得 到 准确 的 结果 ， 对 所 有 事实 都 应 该 有 相同 的 记忆 
existing facts: 张 量 [batch size, maximum sentence count, 1], 就 是 我 们 上 面 提 到 的 
(二 元 ) 掩 码 


with tf.variable scope("attending") as scope: 


£4 attending: 度量 我 们 决定 去 关注 什么 
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attending = tf.concat([c, mem, re q, c * re q, c * mem, (c-re q) **2, 


(c-mem) **2], 2) 


# ml : 前 馈 网 络 的 第 一 层 权重 乘法 
+ 我 们 平 铺 权 重 值 以 便 手 动 传递 ， 因 为 tf .matmul 从 TensorFlow 1.2 开始 就 不 会 自动 传 
递 批量 矩阵 乘法 
ml = tf.matmul(attending * existing facts, 
tf.tile(w 1, tf.stack([tf.shape(attending)[0],1,1]))) * 
existing facts 


* bias 1: 第 一 个 前 馈 层 的 掩 码 变 体 仅 对 现 有 事实 产生 偏差 

bias 1 = b 1 * existing facts 

# tnhan: 第 一 非 线性 。 选 择 relu 而 不 是 tanh 等 类 似 的 非 线性 ， 是 为 了 避免 当 cann 之 类 
返回 值 接近 1 或 -1 时 出 现 低 梯度 量 级 的 问题 


tnhan = tf.nn.relu(ml + bias 1) 


+ m2: 前 馈 网 络 的 第 二 层 乘法 权重 值 
m2 = tf.matmul(tnhan, tf.tile(w 2, tf.stack([tf.shape (attending) [0], 
1,1]))) 


* bias 2: 第 二 个 前 馈 层 偏差 的 掩 码 变 体 


bias 2 = b 2 * existing facts 


* norm m2: 第 二 层 权 重 值 的 标准 化 版 本 ， 用 于 确保 sottmax 非 线性 不 饱和 


norm m2 = tf.nn.12 normalize(m2 + bias 2, -1) 


* softmaxable: 在 原本 密集 的 张 量 上 使 用 sparse softmax 的 技巧 。 我们 让 norm m2 
成 为 稀 玻 张 量 ， 使 其 在 操作 之 后 再 次 致密 

softmax idx = tf.where(tf.not equal (norm m2, 0))[:,:-1] 

softmax gather = tf.gather nd(norm m2[...,0], softmax idx) 

softmax shape = tf.shape(norm m2, out type-tf.int64)[:-1] 

softmaxable - tf.SparseTensor(softmax idx, softmax gather, 
softmax shape) 

return 


tf.expand dims(tf.sparse tensor to dense(tf.sparse softmax(softmaxable)),-1) 


124.10 ”答案 模块 


最 后 一 个 模块 是 答案 模块 ， 它 使 用 完全 连接 层 对 问题 和 情景 记忆 模块 的 输出 进行 回归 并 获得 
“最 终结 果 ” 的 词 向 量 , 而 与 该 结果 距离 最 近 的 上 下 文中 的 词 便 是 我 们 的 最 终 输出 (确保 结果 是 一 
个 真实 中 的 词 ) 。 我 们 通过 为 每 个 词 创建 一 个 “分 数 ” 来 计算 最 接近 的 词 ， 该 分 数 表示 最 终结 果 与 
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当前 词 的 距离 。 虽 然 可 以 设计 一 个 返回 多 个 词 的 答案 模块 ， 但 是 对 于 我 们 要 解决 的 bAbI 任务 来 说 
是 没有 必要 的 。 


12.4.11 ”模型 优化 


梯度 下 降 是 神经 网 络 模型 的 默认 优化 器 ， 其 目标 是 减少 神经 网 络 的 “损失 ”， 这 是 衡量 网 络 性 
能 有 多 差 的 一 个 指标 。 它 通过 找到 在 当前 输入 下 损失 相对 于 每 个 权重 值 的 导数 ， 然 后 通过 “降低 ” 
权重 值 来 减少 损失 。 大 多 数 时 候 ， 这 种 方法 效果 很 好 的 ， 但 却 不 是 最 理想 的 方法 。 目 前 有 许多 不 同 
的 模型 优化 方法 ， 如 使 用 “动量 ”或 其 他 更 直接 路 径 的 近似 的 方法 来 最 优化 权重 ， 而 这 些 优 化 方法 
中 最 有 用 的 一 种 被 称 为 自 适 应 矩 估 计 (Adaptive Moment Estimation, Adam) 。 

Adam 方法 集成 了 AdaGrad 和 RMSProp 算法 的 优点 ， 通 过 计算 梯度 的 一 阶 窍 估计 和 二 阶 矩 估 
计 来 为 各 种 不 同 的 参数 创建 独立 的 自 适应 性 学 习 率 。 进 一 步 讲 ，Adam 方法 计算 了 梯度 的 指数 移动 
均值 ， 使 用 两 个 超 参数 (betal 和 beta2) 控制 着 这 些 移动 均值 的 衰减 速度 。 而 移动 均值 的 初始 化 值 
和 betal, beta2 两 参数 值 接 近 于 1 时 ， 甜 估计 的 偏差 就 会 接近 于 0。 若 移动 均值 初始 化 为 零 有些 
参考 资料 这 里 给 出 的 初始 化 值 为 1， 笔 者 认为 不 准确 ) 和 两 个 超 参 数 (betal 、beta2 ) 值 接近 于 1 
时 ， 就 会 引起 向 矩 估 计 的 偏差 接近 于 零 。 

为 了 抵消 这 种 偏差 ，Adam 计算 偏差 校正 的 矩 离 估 计 ， 其 值 一 般 情况 下 会 大 于 原始 值 ， 然 后 使 
用 校正 的 估计 值 来 更 新 整个 神经 网 络 的 权重 值 ,这 些 估计 的 组 合 使 得 Adam 成 为 整体 优化 的 最 佳 选 
择 之 一 ， 尤 其 是 对 于 复杂 神经 网 络 优化 而 言 。 这 对 于 非常 稀疏 的 数据 〈 比 如 在 自然 语言 处 理 任 务 中 
常见 的 数据 ) 尤其 适用 。 

在 TensorFlow 中 ， 我 们 可 以 通过 创建 tftrain.AdamOptimizer 来 使 用 Adam。 


optimizer = tf.train.AdamOptimizer(learning rate) 
# 我 们 一 旦 有 了 一 个 优化 器 ， 我 们 就 要 求 它 将 模型 的 损失 降 到 最 低 ， 以 便 进 行 适当 的 训练 


opt op = optimizer.minimize(total loss) 


124.12 ”训练 模型 并 分 析 预 测 


一 切 准备 就 绪 后 ,我 们 就 可 以 开始 批 处 理 训练 数据 以 训练 我 们 的 神经 网 络 。 在 进行 训练 过 程 中 ， 
我 们 应 该 持续 监测 神经 网 络 在 准确 性 指标 方面 做 得 如 何 。 我 们 从 测试 数据 里 取出 一 部 分 作为 验证 数 
据 集 ， 这 样 它们 和 训练 数据 就 不 存在 重 秋 问题 了 。 

使 用 基于 测试 数据 的 验证 集 , 可 以 更 好 地 了 解 神经 网 络 的 泛 化 能 力 , 即 从 训练 数据 里 学 习 到 的 
东西 能 否 应 用 于 其 他 未 知 的 上 下 文中 。 如果 在 训练 数据 集中 的 部 分 数据 上 进行 验证 , 那么 神经 网 络 
可 能 会 出 现 过 拟 合 现象 。 换 句 话说 , 学 习 到 了 特定 的 示例 并 记 住 它们 的 答案 , 将 无 益 于 神经 网 络 回 
答 新 问题 。 

经 过 一 些 训练 之 后 ， 让 我 们 来 看 看 从 神经 网 络 中 得 到 了 什么 样 的 答案 。 在 图 12-19 中 (笔者 这 
里 只 给 出 三 个 问题 的 图 像 ， 其 余 两 个 问题 的 图 像 读 者 可 以 在 代码 文件 中 查看 )， 我们 可 以 将 注意 力 
可 视 化 到 上 下 文中 所 有 句子 ( 列 ) 和 每 个 情景 CHO E: 较 深 的 颜色 表示 模型 对 该 情景 中 那个 句子 
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有 更 多 关注 。 


15 
Question 5 


图 12-19 模型 输出 的 部 分 答案 示意 图 
对 于 每 个 问题 , 应 该 看 到 注意 力 在 至 少 两 个 情景 里 发 生 过 变化 , 但 有 时 注意 力 可 以 在 一 个 情景 
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内 找到 答案 ， 有 时 需要 全 部 4 个 情景 才 有 可 能 找到 答案 。 如 果 注 意 力 看 起 来 是 空白 的 , 那么 它 可 能 
是 饱和 的 , 应 该 注意 到 了 所 有 的 事项 。 在 这 种 情况 下 , 可 以 尝试 一 个 更 高 的 weight decay 来 训练 ， 
以 减少 甚至 阻止 这 种 情况 的 发 生 。 在 训练 后 期 ， 饱 和 变 得 非常 普遍 。 

为 了 了 解 上 述 问题 的 答案 , 我 们 可 以 使 用 上 下 文中 距离 分 数 的 位 置 作为 索引 并 查看 该 索引 处 的 
词 。 

为 了 得 到 更 好 的 结果 ， 我 们 可 能 需要 长 时 间 的 训练 〈 一 般 情况 下 需要 12 小 时 左右 ) ， 最 终 应 
该 能 够 达到 非常 高 的 精度 (超过 90%) 。 对 Jupyter Notebook 有 经 验 的 用 户 应 该 知道 ， 在 任何 时 候 
只 要 保持 相同 的 给 Session， 都 可 以 中 断 训练 ， 并 且 仍 然 可 以 保存 网 络 训练 的 进展 。 如 果 和 希望 可 视 
化 注意 力 和 当前 网 络 给 出 的 答案 ， 这 种 方式 很 有 用 。 

一 旦 查看 完 模型 返回 的 内 容 ， 就 可 以 关闭 会 话 以 释放 系统 资源 。 


125 总结 


本 章 简 单 介绍 了 基于 深度 学 习 的 问答 方法 , 特别 是 对 知识 库 和 机 器 理解 的 问答 。 使 用 深度 学 习 
的 优点 是 其 可 以 将 所 有 文本 跨度 (包括 文档 、 问题 和 潜在 答案 ) 转换 为 向 量 RAE) o DRE, 
所 有 文本 都 可 以 在 统一 的 语义 空间 中 处 理 , 进而 基于 符号 表示 的 传统 QA 方法 中 存在 的 语义 鸿沟 问 
题 可 以 在 一 定 程度 上 得 到 缓解 ， 并 且 这 种 方法 使 得 QA 系统 可 以 以 端 到 端的 方式 构建 。 所 以 , 现 有 
复杂 的 基于 管道 的 QA 过 程 可 以 用 更 直接 或 更 简单 的 方式 代替 ， 预 计 结果 会 有 所 改善 。 

基于 深度 学 习 的 QA 模型 也 存在 许多 挑战 。 例 如 ， 现 有 的 神经 网 络 (如 RNN 和 CNN) 仍然 不 
能 精确 地 捕获 给 定 问题 的 语义 含义 。 特 别 是 对 于 文档 , 文档 中 的 主题 或 逻辑 结构 不 能 通过 神经 网 络 
轻松 建 模 ， 而 且 在 知识 库 中 嵌入 项 目 没有 有 效 的 方法 。 此 外 ，QA 中 的 推理 过 程 很 难 通过 向 量 之 间 
的 简单 数值 运算 来 建 模 。 这 些 问 题 是 质量 保证 任务 面临 的 主要 挑战 ， 未 来 应 引起 更 多 关注 。 


